① 最大熵原理的理论方法
这是一个约束极值问题,通过Lagrange乘数法可以求得其最优解,从熵作为系统不确定性的度量的角度来看,等可能系统的不确定性是最大的,这一结果与我们的直观是一致的。更进一步,许多问题都附带一些实际的限制,也可以理解为在解决问题之前,我们可以获得一些已知信息。由此,(1)可以深化为
为各阶统计矩函数,,表示实际观测到的各阶统计矩的期望值。这里由于为一正常数,为简便记,取。同(1),仍然可以利用Lagrange乘数法来求解。做Lagrange函数:
解出最优解。但当较大时,往往计算困难。姜昱汐提出了一个解决此问题的方法[5]。利用对偶规划理论,可得问题(2)的求解相当于求解:
其中,(3)是凸规划(2)的对偶规划,优势在于(3)是一个变量个数较(2)少的无约束规划,可以直接利用软件求解。 对于连续系统,记为一连续随机变量,概率密度函数为。此系统的熵定义为[6]。在一些条件的约束下,使得系统熵最大的问题一般有下面形式:
其中为一些约束,右端为观测值。这是一个有
个约束的泛函极值问题。关于这一问题有如下定理。
定理2.1[7]若在条件约束下目标泛
使得满足泛函,所给出的欧拉方程组
由此方程组可解出目标。
② 简述离散信源,连续信源的最大熵定理。
离散无记忆信源,等概率分布时熵最大。连续信源,峰值功率受限时,均匀分布的熵最大。平均功率受限时,高斯分布的熵最大。均值受限时,指数分布的熵最大。
最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。随机量的概率分布是很难测定的,一般只能测得其各种均值(如数学期望、方差等)或已知某些限定条件下的值(如峰值、取值个数等),符合测得这些值的分布可有多种、以至无穷多种,通常,其中有一种分布的熵最大。
(2)最大熵iis算法扩展阅读
最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。
因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。
从这个意义上讲,那么最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。
③ 数学之美(二十)
不要把鸡蛋放在一个篮子里——最大熵模型
投资时说不要把鸡蛋放在一个篮子里,以降低风险,信息处理中也适用。数学上称这个原理为最大熵模型。
网络搜索排名中用到的信息有上百种,怎么结合更好?在信息处理中,我们知道多种但不完全确定的信息,怎么用一个统一模型把它们很好地综合起来?
比如输入法拼音转汉字,输入wangxiaobo,利用语言模型,根据有限的上下文(比如前两个字)能给出两个常见名字:王小波和王晓波,要确定是哪个名字就难了,如果通篇介绍文学,那王小波可能性大,如果讨论两岸关系,那王晓波可能性大,也就是综合两类不同信息:主题信息和上下文信息。如果不这样搞,比如分成上万种主题单独处理,或者对每种信息的作用加权平均,就好像用小圆套大圆的天体模型,不能准确圆满地解决问题。在很多应用中需要综合几十甚至上百种信息,小圆套大圆的打补丁方法行不通。
1 最大熵原理和最大熵模型
最大熵模型就相当于行星运动的椭圆模型,它的大白话是:保留全部的不确定性,将风险降到最小。比如掷一个你没扔过的骰子,先假设每个面向上的概率都是1/6是最安全的(如果我有6次猜点数的机会,应该每个面都押一次,不应该主观假设它是出老千用的)从投资角度来看风险最小,从信息论来看保留了最大的不确定性,即让熵达到最大。
现在这个骰子经过特殊处理,四点向上的概率是1/3,此时每个面朝上的概率是多少?除了四点是1/3,其它各面应该是2/15(不应假设四点的背面是三点),最大熵原理指出,需要对一个随机事件的概率分布进行预测时,我们的预测应当满足所有已知条件,而对未知条件不做主观假设。此时概率分布最平均,预测风险最小,概率分布的信息熵最大(保留了各种可能性)。
对前面拼音转汉字的例子,我们已知两种信息,1、根据语言模型,wangxiaobo可转为王小波和王晓波,2、根据主题,王小波是作家,王晓波是两岸关系的学者。因此可以建立一个最大熵模型,同时满足这两种信息,香农奖得主希萨证明,对任何一组不自相矛盾的信息,这个最大熵模型不仅存在且唯一,形式为指数函数。以下公式是根据上下文(前两个词)和主题预测下一个词的最大熵模型,其中w3是要预测的词(王小波or王晓波),w1和w2是前两个词(比如“出版”“小说家”),s表示主题,Z是归一化因子,保证概率和为1,参数λ和Z都需要通过观测数据训练。
最大熵模型在形式上漂亮完美,早期计算量大,有些人试图用近似模型代替,结果效果不佳。第一个验证最大熵模型优势的是马库斯的高徒拉纳帕提,他没有使用近似,而是找到几个适合用最大熵模型且计算量相对不大的问题(如词性标注和句法分析),将上下文信息、词性、名词、动词、形容词等成分通过最大熵模型结合,做出当时最好的词性标识系统和句法分析器。
2000年左右计算机的进步和算法的提升使很多复杂问题也能用上最大熵模型了,和简单组合特征的模型相比,最大熵模型能提升几个百分点的效果,很多对冲基金使用最大熵模型(证券交易要考虑很多复杂因素)取得了很好的效果。
2 最大熵模型的训练
最大熵模型形式简单,但实现起来计算量大,假设搜索排序需要考虑20种特征{x1,x2,...,x20},需要排序的网页是d,特征互相独立时,对应的最大熵模型:
最原始的训练方法称为通用迭代算法GIS,原理概括为几个步骤:1、假设初始模型(第0次迭代)为等概率分布;2、用第N次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过实际就把相应模型参数调小,如果小于实际就将它们变大;3、重复步骤2直到收敛。
GIS是1970s由达诺奇和拉特克里夫提出的典型的期望值最大算法,不过他们没很好地解释物理含义,后来由希萨阐明了含义。GIS迭代时间长,需多次迭代才能收敛,且不太稳定,即使在64位计算机也会出现溢出,因此实际很少使用GIS,只是通过它了解最大熵模型的算法。
1980s孪生兄弟达拉皮垂(Della Pietra)改进了GIS,提出改进迭代算法IIS,把训练时间缩短了1-2个数量级,即使如此当时只有IBM有条件使用这个模型。
吴军本人发现了一种数学变换,可以把训练时间在IIS的基础上减少两个数量级,之后团队构造了一些很大的最大熵模型,即便如此他们训练一个文法模型,使用了20台当时最快的工作站,仍然算了三个月。
最大熵模型形式简单,实现复杂,用途广泛,在谷歌很多产品如机器翻译,都直接或间接用到了最大熵模型。
1990s达拉皮垂兄弟跳槽到了金融界,和很多IBM同事到了现在世界上最成功的对冲基金公司:文艺复兴技术公司。决定股票涨跌的因素有几十甚至上百种,而最大熵模型能同时满足成千上万种不同条件。文艺复兴公司1988年创立后每年净回报率高达34%,如果1988年投入1块钱,20年后你能得到200多块钱,拳打巴菲特脚踢索罗斯。但是大奖章基金只卖自己人,对外出售的收益率跟其它公司没啥区别。这家公司介绍戳: 华尔街量化革命,数学天才西蒙斯和他的大奖章基金
3 小结
最大熵模型可以将多种信息整合到一个模型中,形式上简单优美、效果上既能满足限制条件又能保证平滑性,因此用途很多,但计算量大,需要好的实现方法提供实用性。
④ 一个八进制信源的最大熵怎么算
一个八进制信源的最大熵算法:当信源各符号无相关性、等概散布时,信源嫡为最大值。八进制信源的最大嫡为3bit/符号。
⑤ 人工智能通识-科普-最大熵
最大熵是什么?最大熵有什么意义?
在这篇文章中, 人工智能通识-科普-信息熵和信息量 ,我们提到了香农发明的信息熵计算公式:
并且我们计算得到了抛掷均匀硬币所得结果的信息熵是1bit,投掷均匀骰子的点数结果的信息熵是2.585bit,对于等概率随机四个数字所得结果的信息熵是2bit。
那么假设有一个用来作弊的骰子,扔出一点的概率有50%,扔出其他五个点的概率均等,都是10%。那么这个结果的信息熵是:
从这个例子我们可以看到, 均匀骰子等概率随机产生结果的信息熵最大,任何作弊之后的骰子产生的信息熵都会小于这个最大熵 。
再以非均匀的硬币为例,正面朝上的概率如果是0.6,而反面朝上的概率是0.4,那么它产生结果的信息熵是:
上面是我们感性的认识,当然这个规律是可以被数学证明的,即: 所有可能性为等概率的时候,结果的信息熵最大 。
信息熵也叫香农熵。信息论中信息量的单位是比特bit,也叫香农单位。消息所带的信息量可以消除不确定性,即消除熵。所以信息熵的单位也是比特。
比特就是正反两面二选一。
有ABC三个杯子,一枚硬币一定在某个杯子底下。假设三个杯子盖了硬币的概率是均衡的,那么,怎么解开谜题?我们只要2次判断。
如果在A下,一问即中;如果在B或C下,要问2次,平均每个杯子问(1+2+2)/3=1.66次,而这个系统只有3种均概率的可能,它输出结果的信息熵是 ,小于2,所以香农熵是确定每种情况平均所需提问的最小值。
换成6个面的骰子会怎样?是1吗?是2吗?...是5吗?平均每个点数要问的次数是:
。
也许你会用更好的二叉树进行提问:
这样的话,6和3只问2次,1245则要问三次,平均每个点数对应的问题是:
用二进制表示N种可能(比如0~N范围的数字),那么至少需要 个字节,因为这样每个表示的二进制数字才能将所有其他可能的数字区别开来。
比如说计算机RGB每个颜色有0~255种,也就是 ,需要8比特才能表示全部情况。
熵描述了无序性,随机性,不确定性。根据热力学第二定律,熵总是趋向增加的。因此,当我们遇到未知的情况的时候,我们应该按照最大熵的情况进行推测。
实际上,每天我们都是这样做的。
比如骰子,我们一直习惯于假设它的六个点是均等概率的,并按照这个1/6的概率去推测下一次情况。即使我告诉你这个骰子我做过特殊处理,有50%的概率会投出1点,那么大家也还是会习惯的认为剩下5个点数每种可能都是1/5,这就是用最大熵的思维来思考。
最大熵就是以知之为知之,以不知为不知。对于已知条件之外的未知情况,我们都习惯于用最大熵的均等概率进行思考 。
不要把鸡蛋放在一个篮子里,因为放在一个篮子里不符合最大熵原理,放在多个篮子,概率被比较平静的分散开,就能获得更大熵,更小的风险。
热力学第二定律规定在没有外来能量注入的封闭情况下,熵会趋向于增加,而不会减少。
但这不代表着熵就没有办法增加,恰恰相反,这个定理背后隐含着可以通过引入外部能量来减少系统内的熵,从而使系统变得更加有序。
地球是个大系统,太阳光源源不断的把能量输送进来,四十亿年以来逐渐诞生了生命。生命的一个热力学定义就是能够通过输入输出实现熵减的系统。
生命是宇宙熵增大潮中的一股逆流,它逆潮而动,吸收能量,努力减少自身的熵,减少周边世界的熵,让自身变得更有序,让世界变得更有序。
然而在大尺度上看,生命这种熵减系统的出现,可以更快的加速周边世界能量的释放,更快的实现了更大系统的熵增。
生命让地球系统的熵更多还是更少?
我认为是更多。不要只看到鳞次栉比的高楼大厦,更要看到我们消耗了地球储藏了几十亿年的石油、煤炭、天然气资源,甚至我们的技术已经伸向了原子层的核能。
在宇宙宏观层面,生命无法阻拦整个系统的熵增,实际上,系统内的元素和能量越是活跃,也就越是引发更快的熵增。
生命既是熵增大潮的中的逆流,也是大潮的助推者,我们人类就像是地球上生长的食腐细菌,我们发展越快,也就越快的导致地球乃至太阳系的无序熵增。
熵增是无机世界的自然法则,也是真随机事件的内在特征。但是也有两方面值得思考:
END
⑥ 最大熵模型
最大熵模型(maximum entropy model, MaxEnt) 是很典型的分类算法,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。
理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。
我们知道熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定。也就是随机变量最随机,对其行为做准确预测最困难。最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断。这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。(在已知若干约束的情况下,我们建模时应该让模型满足这些约束,而对其它则不作任何假设。)
将最大熵原理应用于分类问题,得到的就是最大熵模型。对于这样的一个问题:给定一个训练数据集:
其中 表示输入, 表示输出, X 和 Y 表示输入和输出空间, N 为样本的个数。
我们的目标是:利用最大熵原理选择一个最好的分类模型,即对于任意给定的输出入 , 可以以概率 输出 。
按照最大熵原理,我们应该优先保证模型满足已知的所有约束。这些约束该如何定义呢?我们的思路是:从训练数据 T 中抽取若干特征,然后要求这些特征在 T 上关于经验分布 的数学期望与它们在模型中关于 的数学期望相等。这样,一个特征就对应一个约束。
有了上面定义的特征函数和经验分布,就可以进一步定义我们所需的约束条件了。
⑦ 最大熵原理
据网上搜索知:最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。
随机量的概率分布是很难测定的,一般只能测得其各种均值(如数学期望、方差等)或已知某些限定条件下的值(如峰值、取值个数等),符合测得这些值的分布可有多种、以至无穷多种,通常,其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布,是一种有效的处理方法和准则。
这种方法虽有一定的主观性,但可以认为是最符合客观情况的一种选择。在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理。
⑧ 最大熵马尔科夫模型
现在我们回到序列标注任务,描述一下直接使用对数线性模型的最大熵马尔科夫模型。最大熵马尔科夫模型是隐马尔可夫模型的一个有用替代。
我们的目标是为以下条件概率建立模型。
这里 是第 个输入符号(比如一句话里的第 个词), 是第 个状态。这里使用 表示所有状态的集合,这里假设 是有限的。
例如,在英语词性标注里, 是所有英语词性的集合(名词、动词、介词等)。给定包含单词 的一句话,将有 种可能的词性序列 ,这里 是所有词性的数量。我们想要在这 种可能序列中估算出一个分布。
第一步,最大熵马尔科夫模型使用下面的概率分解:
第一个等号是严格成立的,第二个等号需要满足条件独立条件,即对所有 成立,
我们在这里做了一个与HMMs中的马尔科夫假设相似的假设,例如,状态 只依赖状态 ,和其他的状态无关。
在这个独立假设下,我们对每一项使用对数线性模型进行建模:
这里 是个特征向量,其中:
一旦我们定义好了特征向量 ,就可以像训练对数线性模型那样训练参数 。训练样本由句子 和对应的状态 ,一旦我们训练好了参数,我们就有了
的模型,也就是有了一个
的模型。接下来的问题就是怎样对模型解码。
解码最大熵马尔科夫模型 解码问题如下,给定一个测试序列 ,我们的目标是计算出最有可能的状态序列,
这里有 种状态序列,所以对任意合理长的句子使用暴力搜索的方法都是不现实的。
幸运的是,我们可以使用维特比算法:和在HMMs里使用维特比算法的方式非常类似。算法所需的基本数据结构是一个动态规划表 ,里面的项
其中 , 是位置 处以状态 结束的最大可能状态序列。更正式的,算法计算
其中 ,
算法如下:
最大熵马尔科夫模型和隐马尔可夫模型的比较 使用最大熵马尔科夫模型代替隐马尔可夫模型有什么原因呢?注意到两个模型使用维特比解码过程是非常相似的。在最大熵马尔科夫模型里,状态从 转移到 的概率是
在隐马尔可夫模型里,转移概率是
最大熵马尔科夫模型最大的优势在于特征向量 比隐马尔可夫模型里使用的表达力更丰富。例如,转移概率可能对输入句子 里的每个单词都有关系。
⑨ 最大熵模型
信息增益在决策树中介绍,最大熵模型之后再来更。
为了解释熵,首先要引入“信息量”这个词。直观上理解,信息量可以度量一个事件包含的信息。先给出公式,然后结合例子来理解。
信息量的定义:
例子:比如有两个事件,狗咬了人与人咬了狗,那很明显狗咬人这件事情概率大,人咬了狗这件事情概率小,所以可以通过公式来分析。log是一个单调递增的凹函数,因此公式中 越大则信息量 越小; 越小则信息量 越大。例子中,狗咬人的信息量就很小,人咬狗的信息量就很大。总而言之信息量与概率成反比,概率越低则信息量越大,概率越大信息量则越小。
有了信息量的基础,就可以用来解释熵是什么东西。简单的一句话来解释就是 “熵是信息量的期望”,先给出公式:
熵的定义:
可以看到,事件的概率乘上这个时间的信息量再求和,那就是期望的定义。熵能够反映事件的不确定性,不确定性与熵成正比关系。
联合熵实际上是表示两个变量或者多个变量熵的并集。给出公式:
多变量 联合熵的定义:
条件熵可以从引言部分中给出的Venn图中可以直观地理解,由于个人能力有限,无法用通俗的语言来解释。还是用公式来描述其含义比较准确。
条件熵的定义:
推导一波:
条件熵的两种含义:
第一种含义是说从联合熵 中减去熵 第二中含义是说熵 减去互信息 . 其中,互信息就是指两个熵的交集,接下来马上介绍互信息。
互信息的含义可以通过引言部分的Venn图理解一下,实际上就是两个熵的交集。给出公式:
互信息的定义:
特点: 互信息常用于机器学习中的特征选择和特征关联性分析。互信息刻画了两个变量之间的非线性相关性,而概率论中的相关性 用来刻画线性相关性
KL散度用来刻画两个分布之间的差异性,可参考MLPR一书中对贝叶斯的描述。有很多类似的度量两个分布P和Q的方法,如 ,这里只是mark一下,目前我还没有逐一去研究过,这里仅讨论KL散度。
为什么需要用KL散度来比较两个分布之间的差异性呢?在这个问题之前还有问题,什么是两个分布?怎么就来了两个分布?答案是实际的应用问题引出的。机器学习中有时候需要比较两个样本集的差异,按照经验比较差异那就可以用一些范数距离来求解,如用一阶范数 或者二阶范数 直接来计算不久OK了吗?当然,用范数来做有一定的道理,也是可以的,但是有一个先决条件——“两个数据集中的样本能够逐一对应”。如果不满足这个先决条件,那么用范数来度量差异性就是不合理的。实际的应用中,很难保证两个样本集中的样本能够一一对应,因此用范数距离比较差异的方法就不可行了。那么就换一种思路,我用两个样本集的分布来比较差异性,这样就回答了“两个分布怎么来的”这个问题。
再回答标题中的问题,为什么需要用KL散度来比较两个分布之间的差异性呢?答案就很简单了,KL散度只是很多种比较分布差异性的一种,我们这里讨论熵的时候就用到了相对熵,那就是KL散度。条条大路通罗马,KL散度只是其中一种方法。
假设有两个分布P和Q,我们需要求他们的相对熵,那么用公式可以表示为
相对熵的定义:
性质1:
性质2:随着 的增大,P和Q两个分布的差异会非常明显
推导一波: 为了方便进一步的推导,我们令 , 则 ; 令 则有
由于log函数是一个凹函数,因此根据凹函数的詹森不等式 ,可以对进一步推导:
其中 。通过推导可以发现
证毕!
交叉熵可以用来计算学习模型分布与训练分布之间的差异,交叉熵广泛用于逻辑回归的Sigmoid和Softmax函数中作为损失函数使用。(这句话引自 https://www.cnblogs.com/kyrieng/p/8694705.html ,感谢大佬的解读)给出公式:
交叉熵的定义
实际上交叉熵还可以这样理解:
因此,交叉熵可以看做是熵加上KL散度.
决策树中介绍(还未更)
在介绍最大熵之前,首先来明确一下事件概率的经验值和理论值
经验值:
假设有这样一个数据集 ,我们用 来表示从包含n个样本的数据集中样本 所占的比例。这个 就是我们的经验值,实际上也就是我们从数据中训练得到的值。
理论值: 理论上这个事件的概率应该如何表示呢?实际上这个问题在很早以前就学过了。就是抛硬币的例子,例如抛100次出现30次正面,抛1000次出现400次正面,抛10000次出现4800次正面....抛 次的时候出现 次正面。因此,最后逼近极限的 就是抛硬币例子中概率的理论值。在考虑我们的数据集 ,在这个例子中事件 的理论概率值就是数据集 中的样本无穷多的时候 .用公式来描述就是:
通过前面几节对熵的介绍,可以知道熵表示事件的不确定性,熵越大则不确定性越大。如果有A,B,C三件事情,通过已有数据测量发现他们发生的概率都是三分之一。那么问题来了,现在又发生了一个事件,请问到底是是A,B,C其中的哪件事情?要回答这个问题就先来看看最大熵原则是怎么说的
最大熵原则是这样一句话:承认已知数据,对未知数据无偏见。
通过这句话,我们在例子中所承认的就是“A,B,C三件事情,通过已有数据测量发现他们发生的概率都是三分之一”,对未知数据无偏见意思就是,再来一个事件我们主观地认为它可能会是哪个事件。
通过上面的例子可能会有两个问题,最大熵到底有什么用?如何应用最大熵?那么下面的例子来解释这两个问题。
插播一条李航《统计学习方法》中对最大熵原理是这样讲的“最大熵原理认为,学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型”
先回忆条件熵: 最大熵怎么用呢?我们可以用最大熵来确定事件的概率,然后通过概率来确定事件的归属类别。通俗地将就是可以通过对数据进行分析后进行参数估计。
用上面的条件熵可以有:
这个式子的意思就是:求解 ,使得熵 最大。实际上,这个式子就引出了最大熵模型的目标。再定义一个特征函数就构成了最大熵问题的清单。特征函数是什么呢?可以理解为数据的特征对估计结果的映射关系。接下来给出最大熵问题的清单:
接下来,有目标函数,有约束,那就可以用拉格朗日朗日乘子法求解。可以看到,这里又引入了一个经验值 ,它和理想值 相等是一个约束条件。用公式来描述:
开始构造拉格朗日函数:
对 求偏导:
令 则可以推导得到:
令 则有:
这样,我们就得到了最终所要估计的概率 .
⑩ 最大熵原理的特点
最大熵方法的特点是在研究的问题中,尽量把问题与信息熵联系起来,再把信息熵最大做为一个有益的假设(原理),用于所研究的问题中。由于这个方法得到的结果或者公式往往(更)符合实际,它就推动这个知识在前进和曼延。我国学者(后来去了加拿大)吴乃龙、袁素云在本领域有成就,而且也在所着的《最大熵方法》(湖南科学技术出版社1991年出版)一书中向国人就这个方法做了很全面的介绍。
把最复杂原理与信息论中的最大熵方法联系起来,既是自然的逻辑推论也显示最复杂原理并不孤立。这样,最大熵方法过去取得的一切成就都在帮助人们理解最复杂原理的合理性。而最复杂原理的引入也使人们摆脱对神秘的熵概念和熵原理的敬畏。在理解了最复杂原理来源于概率公理以后,我们终于明白,神秘的熵原理本质上仅是“高概率的事物容易出现”这个再朴素不过的公理的一个推论。