① 最大熵原理的理論方法
這是一個約束極值問題,通過Lagrange乘數法可以求得其最優解,從熵作為系統不確定性的度量的角度來看,等可能系統的不確定性是最大的,這一結果與我們的直觀是一致的。更進一步,許多問題都附帶一些實際的限制,也可以理解為在解決問題之前,我們可以獲得一些已知信息。由此,(1)可以深化為
為各階統計矩函數,,表示實際觀測到的各階統計矩的期望值。這里由於為一正常數,為簡便記,取。同(1),仍然可以利用Lagrange乘數法來求解。做Lagrange函數:
解出最優解。但當較大時,往往計算困難。姜昱汐提出了一個解決此問題的方法[5]。利用對偶規劃理論,可得問題(2)的求解相當於求解:
其中,(3)是凸規劃(2)的對偶規劃,優勢在於(3)是一個變數個數較(2)少的無約束規劃,可以直接利用軟體求解。 對於連續系統,記為一連續隨機變數,概率密度函數為。此系統的熵定義為[6]。在一些條件的約束下,使得系統熵最大的問題一般有下面形式:
其中為一些約束,右端為觀測值。這是一個有
個約束的泛函極值問題。關於這一問題有如下定理。
定理2.1[7]若在條件約束下目標泛
使得滿足泛函,所給出的歐拉方程組
由此方程組可解出目標。
② 簡述離散信源,連續信源的最大熵定理。
離散無記憶信源,等概率分布時熵最大。連續信源,峰值功率受限時,均勻分布的熵最大。平均功率受限時,高斯分布的熵最大。均值受限時,指數分布的熵最大。
最大熵原理是一種選擇隨機變數統計特性最符合客觀情況的准則,也稱為最大信息原理。隨機量的概率分布是很難測定的,一般只能測得其各種均值(如數學期望、方差等)或已知某些限定條件下的值(如峰值、取值個數等),符合測得這些值的分布可有多種、以至無窮多種,通常,其中有一種分布的熵最大。
(2)最大熵iis演算法擴展閱讀
最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握關於未知分布的部分知識時,應該選取符合這些知識但熵值最大的概率分布。
因為在這種情況下,符合已知知識的概率分布可能不止一個。我們知道,熵定義的實際上是一個隨機變數的不確定性,熵最大的時候,說明隨機變數最不確定,換句話說,也就是隨機變數最隨機,對其行為做准確預測最困難。
從這個意義上講,那麼最大熵原理的實質就是,在已知部分知識的前提下,關於未知分布最合理的推斷就是符合已知知識最不確定或最隨機的推斷,這是我們可以作出的不偏不倚的選擇,任何其它的選擇都意味著我們增加了其它的約束和假設,這些約束和假設根據我們掌握的信息無法作出。
③ 數學之美(二十)
不要把雞蛋放在一個籃子里——最大熵模型
投資時說不要把雞蛋放在一個籃子里,以降低風險,信息處理中也適用。數學上稱這個原理為最大熵模型。
網路搜索排名中用到的信息有上百種,怎麼結合更好?在信息處理中,我們知道多種但不完全確定的信息,怎麼用一個統一模型把它們很好地綜合起來?
比如輸入法拼音轉漢字,輸入wangxiaobo,利用語言模型,根據有限的上下文(比如前兩個字)能給出兩個常見名字:王小波和王曉波,要確定是哪個名字就難了,如果通篇介紹文學,那王小波可能性大,如果討論兩岸關系,那王曉波可能性大,也就是綜合兩類不同信息:主題信息和上下文信息。如果不這樣搞,比如分成上萬種主題單獨處理,或者對每種信息的作用加權平均,就好像用小圓套大圓的天體模型,不能准確圓滿地解決問題。在很多應用中需要綜合幾十甚至上百種信息,小圓套大圓的打補丁方法行不通。
1 最大熵原理和最大熵模型
最大熵模型就相當於行星運動的橢圓模型,它的大白話是:保留全部的不確定性,將風險降到最小。比如擲一個你沒扔過的骰子,先假設每個面向上的概率都是1/6是最安全的(如果我有6次猜點數的機會,應該每個面都押一次,不應該主觀假設它是出老千用的)從投資角度來看風險最小,從資訊理論來看保留了最大的不確定性,即讓熵達到最大。
現在這個骰子經過特殊處理,四點向上的概率是1/3,此時每個面朝上的概率是多少?除了四點是1/3,其它各面應該是2/15(不應假設四點的背面是三點),最大熵原理指出,需要對一個隨機事件的概率分布進行預測時,我們的預測應當滿足所有已知條件,而對未知條件不做主觀假設。此時概率分布最平均,預測風險最小,概率分布的信息熵最大(保留了各種可能性)。
對前面拼音轉漢字的例子,我們已知兩種信息,1、根據語言模型,wangxiaobo可轉為王小波和王曉波,2、根據主題,王小波是作家,王曉波是兩岸關系的學者。因此可以建立一個最大熵模型,同時滿足這兩種信息,香農獎得主希薩證明,對任何一組不自相矛盾的信息,這個最大熵模型不僅存在且唯一,形式為指數函數。以下公式是根據上下文(前兩個詞)和主題預測下一個詞的最大熵模型,其中w3是要預測的詞(王小波or王曉波),w1和w2是前兩個詞(比如「出版」「小說家」),s表示主題,Z是歸一化因子,保證概率和為1,參數λ和Z都需要通過觀測數據訓練。
最大熵模型在形式上漂亮完美,早期計算量大,有些人試圖用近似模型代替,結果效果不佳。第一個驗證最大熵模型優勢的是馬庫斯的高徒拉納帕提,他沒有使用近似,而是找到幾個適合用最大熵模型且計算量相對不大的問題(如詞性標注和句法分析),將上下文信息、詞性、名詞、動詞、形容詞等成分通過最大熵模型結合,做出當時最好的詞性標識系統和句法分析器。
2000年左右計算機的進步和演算法的提升使很多復雜問題也能用上最大熵模型了,和簡單組合特徵的模型相比,最大熵模型能提升幾個百分點的效果,很多對沖基金使用最大熵模型(證券交易要考慮很多復雜因素)取得了很好的效果。
2 最大熵模型的訓練
最大熵模型形式簡單,但實現起來計算量大,假設搜索排序需要考慮20種特徵{x1,x2,...,x20},需要排序的網頁是d,特徵互相獨立時,對應的最大熵模型:
最原始的訓練方法稱為通用迭代演算法GIS,原理概括為幾個步驟:1、假設初始模型(第0次迭代)為等概率分布;2、用第N次迭代的模型來估算每種信息特徵在訓練數據中的分布,如果超過實際就把相應模型參數調小,如果小於實際就將它們變大;3、重復步驟2直到收斂。
GIS是1970s由達諾奇和拉特克里夫提出的典型的期望值最大演算法,不過他們沒很好地解釋物理含義,後來由希薩闡明了含義。GIS迭代時間長,需多次迭代才能收斂,且不太穩定,即使在64位計算機也會出現溢出,因此實際很少使用GIS,只是通過它了解最大熵模型的演算法。
1980s孿生兄弟達拉皮垂(Della Pietra)改進了GIS,提出改進迭代演算法IIS,把訓練時間縮短了1-2個數量級,即使如此當時只有IBM有條件使用這個模型。
吳軍本人發現了一種數學變換,可以把訓練時間在IIS的基礎上減少兩個數量級,之後團隊構造了一些很大的最大熵模型,即便如此他們訓練一個文法模型,使用了20台當時最快的工作站,仍然算了三個月。
最大熵模型形式簡單,實現復雜,用途廣泛,在谷歌很多產品如機器翻譯,都直接或間接用到了最大熵模型。
1990s達拉皮垂兄弟跳槽到了金融界,和很多IBM同事到了現在世界上最成功的對沖基金公司:文藝復興技術公司。決定股票漲跌的因素有幾十甚至上百種,而最大熵模型能同時滿足成千上萬種不同條件。文藝復興公司1988年創立後每年凈回報率高達34%,如果1988年投入1塊錢,20年後你能得到200多塊錢,拳打巴菲特腳踢索羅斯。但是大獎章基金只賣自己人,對外出售的收益率跟其它公司沒啥區別。這家公司介紹戳: 華爾街量化革命,數學天才西蒙斯和他的大獎章基金
3 小結
最大熵模型可以將多種信息整合到一個模型中,形式上簡單優美、效果上既能滿足限制條件又能保證平滑性,因此用途很多,但計算量大,需要好的實現方法提供實用性。
④ 一個八進制信源的最大熵怎麼算
一個八進制信源的最大熵演算法:當信源各符號無相關性、等概散布時,信源嫡為最大值。八進制信源的最大嫡為3bit/符號。
⑤ 人工智慧通識-科普-最大熵
最大熵是什麼?最大熵有什麼意義?
在這篇文章中, 人工智慧通識-科普-信息熵和信息量 ,我們提到了香農發明的信息熵計算公式:
並且我們計算得到了拋擲均勻硬幣所得結果的信息熵是1bit,投擲均勻骰子的點數結果的信息熵是2.585bit,對於等概率隨機四個數字所得結果的信息熵是2bit。
那麼假設有一個用來作弊的骰子,扔出一點的概率有50%,扔出其他五個點的概率均等,都是10%。那麼這個結果的信息熵是:
從這個例子我們可以看到, 均勻骰子等概率隨機產生結果的信息熵最大,任何作弊之後的骰子產生的信息熵都會小於這個最大熵 。
再以非均勻的硬幣為例,正面朝上的概率如果是0.6,而反面朝上的概率是0.4,那麼它產生結果的信息熵是:
上面是我們感性的認識,當然這個規律是可以被數學證明的,即: 所有可能性為等概率的時候,結果的信息熵最大 。
信息熵也叫香農熵。資訊理論中信息量的單位是比特bit,也叫香農單位。消息所帶的信息量可以消除不確定性,即消除熵。所以信息熵的單位也是比特。
比特就是正反兩面二選一。
有ABC三個杯子,一枚硬幣一定在某個杯子底下。假設三個杯子蓋了硬幣的概率是均衡的,那麼,怎麼解開謎題?我們只要2次判斷。
如果在A下,一問即中;如果在B或C下,要問2次,平均每個杯子問(1+2+2)/3=1.66次,而這個系統只有3種均概率的可能,它輸出結果的信息熵是 ,小於2,所以香農熵是確定每種情況平均所需提問的最小值。
換成6個面的骰子會怎樣?是1嗎?是2嗎?...是5嗎?平均每個點數要問的次數是:
。
也許你會用更好的二叉樹進行提問:
這樣的話,6和3隻問2次,1245則要問三次,平均每個點數對應的問題是:
用二進製表示N種可能(比如0~N范圍的數字),那麼至少需要 個位元組,因為這樣每個表示的二進制數字才能將所有其他可能的數字區別開來。
比如說計算機RGB每個顏色有0~255種,也就是 ,需要8比特才能表示全部情況。
熵描述了無序性,隨機性,不確定性。根據熱力學第二定律,熵總是趨向增加的。因此,當我們遇到未知的情況的時候,我們應該按照最大熵的情況進行推測。
實際上,每天我們都是這樣做的。
比如骰子,我們一直習慣於假設它的六個點是均等概率的,並按照這個1/6的概率去推測下一次情況。即使我告訴你這個骰子我做過特殊處理,有50%的概率會投出1點,那麼大家也還是會習慣的認為剩下5個點數每種可能都是1/5,這就是用最大熵的思維來思考。
最大熵就是以知之為知之,以不知為不知。對於已知條件之外的未知情況,我們都習慣於用最大熵的均等概率進行思考 。
不要把雞蛋放在一個籃子里,因為放在一個籃子里不符合最大熵原理,放在多個籃子,概率被比較平靜的分散開,就能獲得更大熵,更小的風險。
熱力學第二定律規定在沒有外來能量注入的封閉情況下,熵會趨向於增加,而不會減少。
但這不代表著熵就沒有辦法增加,恰恰相反,這個定理背後隱含著可以通過引入外部能量來減少系統內的熵,從而使系統變得更加有序。
地球是個大系統,太陽光源源不斷的把能量輸送進來,四十億年以來逐漸誕生了生命。生命的一個熱力學定義就是能夠通過輸入輸出實現熵減的系統。
生命是宇宙熵增大潮中的一股逆流,它逆潮而動,吸收能量,努力減少自身的熵,減少周邊世界的熵,讓自身變得更有序,讓世界變得更有序。
然而在大尺度上看,生命這種熵減系統的出現,可以更快的加速周邊世界能量的釋放,更快的實現了更大系統的熵增。
生命讓地球系統的熵更多還是更少?
我認為是更多。不要只看到鱗次櫛比的高樓大廈,更要看到我們消耗了地球儲藏了幾十億年的石油、煤炭、天然氣資源,甚至我們的技術已經伸向了原子層的核能。
在宇宙宏觀層面,生命無法阻攔整個系統的熵增,實際上,系統內的元素和能量越是活躍,也就越是引發更快的熵增。
生命既是熵增大潮的中的逆流,也是大潮的助推者,我們人類就像是地球上生長的食腐細菌,我們發展越快,也就越快的導致地球乃至太陽系的無序熵增。
熵增是無機世界的自然法則,也是真隨機事件的內在特徵。但是也有兩方面值得思考:
END
⑥ 最大熵模型
最大熵模型(maximum entropy model, MaxEnt) 是很典型的分類演算法,它和邏輯回歸類似,都是屬於對數線性分類模型。在損失函數優化的過程中,使用了和支持向量機類似的凸優化技術。而對熵的使用,讓我們想起了決策樹演算法中的ID3和C4.5演算法。
理解了最大熵模型,對邏輯回歸,支持向量機以及決策樹演算法都會加深理解。
我們知道熵定義的實際上是一個隨機變數的不確定性,熵最大的時候,說明隨機變數最不確定。也就是隨機變數最隨機,對其行為做准確預測最困難。最大熵原理的實質就是,在已知部分知識的前提下,關於未知分布最合理的推斷就是符合已知知識最不確定或最隨機的推斷。這是我們可以作出的唯一不偏不倚的選擇,任何其它的選擇都意味著我們增加了其它的約束和假設,這些約束和假設根據我們掌握的信息無法作出。(在已知若干約束的情況下,我們建模時應該讓模型滿足這些約束,而對其它則不作任何假設。)
將最大熵原理應用於分類問題,得到的就是最大熵模型。對於這樣的一個問題:給定一個訓練數據集:
其中 表示輸入, 表示輸出, X 和 Y 表示輸入和輸出空間, N 為樣本的個數。
我們的目標是:利用最大熵原理選擇一個最好的分類模型,即對於任意給定的輸出入 , 可以以概率 輸出 。
按照最大熵原理,我們應該優先保證模型滿足已知的所有約束。這些約束該如何定義呢?我們的思路是:從訓練數據 T 中抽取若干特徵,然後要求這些特徵在 T 上關於經驗分布 的數學期望與它們在模型中關於 的數學期望相等。這樣,一個特徵就對應一個約束。
有了上面定義的特徵函數和經驗分布,就可以進一步定義我們所需的約束條件了。
⑦ 最大熵原理
據網上搜索知:最大熵原理是一種選擇隨機變數統計特性最符合客觀情況的准則,也稱為最大信息原理。
隨機量的概率分布是很難測定的,一般只能測得其各種均值(如數學期望、方差等)或已知某些限定條件下的值(如峰值、取值個數等),符合測得這些值的分布可有多種、以至無窮多種,通常,其中有一種分布的熵最大。選用這種具有最大熵的分布作為該隨機變數的分布,是一種有效的處理方法和准則。
這種方法雖有一定的主觀性,但可以認為是最符合客觀情況的一種選擇。在投資時常常講不要把所有的雞蛋放在一個籃子里,這樣可以降低風險。在信息處理中,這個原理同樣適用。在數學上,這個原理稱為最大熵原理。
⑧ 最大熵馬爾科夫模型
現在我們回到序列標注任務,描述一下直接使用對數線性模型的最大熵馬爾科夫模型。最大熵馬爾科夫模型是隱馬爾可夫模型的一個有用替代。
我們的目標是為以下條件概率建立模型。
這里 是第 個輸入符號(比如一句話里的第 個詞), 是第 個狀態。這里使用 表示所有狀態的集合,這里假設 是有限的。
例如,在英語詞性標注里, 是所有英語詞性的集合(名詞、動詞、介詞等)。給定包含單詞 的一句話,將有 種可能的詞性序列 ,這里 是所有詞性的數量。我們想要在這 種可能序列中估算出一個分布。
第一步,最大熵馬爾科夫模型使用下面的概率分解:
第一個等號是嚴格成立的,第二個等號需要滿足條件獨立條件,即對所有 成立,
我們在這里做了一個與HMMs中的馬爾科夫假設相似的假設,例如,狀態 只依賴狀態 ,和其他的狀態無關。
在這個獨立假設下,我們對每一項使用對數線性模型進行建模:
這里 是個特徵向量,其中:
一旦我們定義好了特徵向量 ,就可以像訓練對數線性模型那樣訓練參數 。訓練樣本由句子 和對應的狀態 ,一旦我們訓練好了參數,我們就有了
的模型,也就是有了一個
的模型。接下來的問題就是怎樣對模型解碼。
解碼最大熵馬爾科夫模型 解碼問題如下,給定一個測試序列 ,我們的目標是計算出最有可能的狀態序列,
這里有 種狀態序列,所以對任意合理長的句子使用暴力搜索的方法都是不現實的。
幸運的是,我們可以使用維特比演算法:和在HMMs里使用維特比演算法的方式非常類似。演算法所需的基本數據結構是一個動態規劃表 ,裡面的項
其中 , 是位置 處以狀態 結束的最大可能狀態序列。更正式的,演算法計算
其中 ,
演算法如下:
最大熵馬爾科夫模型和隱馬爾可夫模型的比較 使用最大熵馬爾科夫模型代替隱馬爾可夫模型有什麼原因呢?注意到兩個模型使用維特比解碼過程是非常相似的。在最大熵馬爾科夫模型里,狀態從 轉移到 的概率是
在隱馬爾可夫模型里,轉移概率是
最大熵馬爾科夫模型最大的優勢在於特徵向量 比隱馬爾可夫模型里使用的表達力更豐富。例如,轉移概率可能對輸入句子 里的每個單詞都有關系。
⑨ 最大熵模型
信息增益在決策樹中介紹,最大熵模型之後再來更。
為了解釋熵,首先要引入「信息量」這個詞。直觀上理解,信息量可以度量一個事件包含的信息。先給出公式,然後結合例子來理解。
信息量的定義:
例子:比如有兩個事件,狗咬了人與人咬了狗,那很明顯狗咬人這件事情概率大,人咬了狗這件事情概率小,所以可以通過公式來分析。log是一個單調遞增的凹函數,因此公式中 越大則信息量 越小; 越小則信息量 越大。例子中,狗咬人的信息量就很小,人咬狗的信息量就很大。總而言之信息量與概率成反比,概率越低則信息量越大,概率越大信息量則越小。
有了信息量的基礎,就可以用來解釋熵是什麼東西。簡單的一句話來解釋就是 「熵是信息量的期望」,先給出公式:
熵的定義:
可以看到,事件的概率乘上這個時間的信息量再求和,那就是期望的定義。熵能夠反映事件的不確定性,不確定性與熵成正比關系。
聯合熵實際上是表示兩個變數或者多個變數熵的並集。給出公式:
多變數 聯合熵的定義:
條件熵可以從引言部分中給出的Venn圖中可以直觀地理解,由於個人能力有限,無法用通俗的語言來解釋。還是用公式來描述其含義比較准確。
條件熵的定義:
推導一波:
條件熵的兩種含義:
第一種含義是說從聯合熵 中減去熵 第二中含義是說熵 減去互信息 . 其中,互信息就是指兩個熵的交集,接下來馬上介紹互信息。
互信息的含義可以通過引言部分的Venn圖理解一下,實際上就是兩個熵的交集。給出公式:
互信息的定義:
特點: 互信息常用於機器學習中的特徵選擇和特徵關聯性分析。互信息刻畫了兩個變數之間的非線性相關性,而概率論中的相關性 用來刻畫線性相關性
KL散度用來刻畫兩個分布之間的差異性,可參考MLPR一書中對貝葉斯的描述。有很多類似的度量兩個分布P和Q的方法,如 ,這里只是mark一下,目前我還沒有逐一去研究過,這里僅討論KL散度。
為什麼需要用KL散度來比較兩個分布之間的差異性呢?在這個問題之前還有問題,什麼是兩個分布?怎麼就來了兩個分布?答案是實際的應用問題引出的。機器學習中有時候需要比較兩個樣本集的差異,按照經驗比較差異那就可以用一些范數距離來求解,如用一階范數 或者二階范數 直接來計算不久OK了嗎?當然,用范數來做有一定的道理,也是可以的,但是有一個先決條件——「兩個數據集中的樣本能夠逐一對應」。如果不滿足這個先決條件,那麼用范數來度量差異性就是不合理的。實際的應用中,很難保證兩個樣本集中的樣本能夠一一對應,因此用范數距離比較差異的方法就不可行了。那麼就換一種思路,我用兩個樣本集的分布來比較差異性,這樣就回答了「兩個分布怎麼來的」這個問題。
再回答標題中的問題,為什麼需要用KL散度來比較兩個分布之間的差異性呢?答案就很簡單了,KL散度只是很多種比較分布差異性的一種,我們這里討論熵的時候就用到了相對熵,那就是KL散度。條條大路通羅馬,KL散度只是其中一種方法。
假設有兩個分布P和Q,我們需要求他們的相對熵,那麼用公式可以表示為
相對熵的定義:
性質1:
性質2:隨著 的增大,P和Q兩個分布的差異會非常明顯
推導一波: 為了方便進一步的推導,我們令 , 則 ; 令 則有
由於log函數是一個凹函數,因此根據凹函數的詹森不等式 ,可以對進一步推導:
其中 。通過推導可以發現
證畢!
交叉熵可以用來計算學習模型分布與訓練分布之間的差異,交叉熵廣泛用於邏輯回歸的Sigmoid和Softmax函數中作為損失函數使用。(這句話引自 https://www.cnblogs.com/kyrieng/p/8694705.html ,感謝大佬的解讀)給出公式:
交叉熵的定義
實際上交叉熵還可以這樣理解:
因此,交叉熵可以看做是熵加上KL散度.
決策樹中介紹(還未更)
在介紹最大熵之前,首先來明確一下事件概率的經驗值和理論值
經驗值:
假設有這樣一個數據集 ,我們用 來表示從包含n個樣本的數據集中樣本 所佔的比例。這個 就是我們的經驗值,實際上也就是我們從數據中訓練得到的值。
理論值: 理論上這個事件的概率應該如何表示呢?實際上這個問題在很早以前就學過了。就是拋硬幣的例子,例如拋100次出現30次正面,拋1000次出現400次正面,拋10000次出現4800次正面....拋 次的時候出現 次正面。因此,最後逼近極限的 就是拋硬幣例子中概率的理論值。在考慮我們的數據集 ,在這個例子中事件 的理論概率值就是數據集 中的樣本無窮多的時候 .用公式來描述就是:
通過前面幾節對熵的介紹,可以知道熵表示事件的不確定性,熵越大則不確定性越大。如果有A,B,C三件事情,通過已有數據測量發現他們發生的概率都是三分之一。那麼問題來了,現在又發生了一個事件,請問到底是是A,B,C其中的哪件事情?要回答這個問題就先來看看最大熵原則是怎麼說的
最大熵原則是這樣一句話:承認已知數據,對未知數據無偏見。
通過這句話,我們在例子中所承認的就是「A,B,C三件事情,通過已有數據測量發現他們發生的概率都是三分之一」,對未知數據無偏見意思就是,再來一個事件我們主觀地認為它可能會是哪個事件。
通過上面的例子可能會有兩個問題,最大熵到底有什麼用?如何應用最大熵?那麼下面的例子來解釋這兩個問題。
插播一條李航《統計學習方法》中對最大熵原理是這樣講的「最大熵原理認為,學習概率模型時,在所有可能的概率模型中,熵最大的模型是最好的模型」
先回憶條件熵: 最大熵怎麼用呢?我們可以用最大熵來確定事件的概率,然後通過概率來確定事件的歸屬類別。通俗地將就是可以通過對數據進行分析後進行參數估計。
用上面的條件熵可以有:
這個式子的意思就是:求解 ,使得熵 最大。實際上,這個式子就引出了最大熵模型的目標。再定義一個特徵函數就構成了最大熵問題的清單。特徵函數是什麼呢?可以理解為數據的特徵對估計結果的映射關系。接下來給出最大熵問題的清單:
接下來,有目標函數,有約束,那就可以用拉格朗日朗日乘子法求解。可以看到,這里又引入了一個經驗值 ,它和理想值 相等是一個約束條件。用公式來描述:
開始構造拉格朗日函數:
對 求偏導:
令 則可以推導得到:
令 則有:
這樣,我們就得到了最終所要估計的概率 .
⑩ 最大熵原理的特點
最大熵方法的特點是在研究的問題中,盡量把問題與信息熵聯系起來,再把信息熵最大做為一個有益的假設(原理),用於所研究的問題中。由於這個方法得到的結果或者公式往往(更)符合實際,它就推動這個知識在前進和曼延。我國學者(後來去了加拿大)吳乃龍、袁素雲在本領域有成就,而且也在所著的《最大熵方法》(湖南科學技術出版社1991年出版)一書中向國人就這個方法做了很全面的介紹。
把最復雜原理與資訊理論中的最大熵方法聯系起來,既是自然的邏輯推論也顯示最復雜原理並不孤立。這樣,最大熵方法過去取得的一切成就都在幫助人們理解最復雜原理的合理性。而最復雜原理的引入也使人們擺脫對神秘的熵概念和熵原理的敬畏。在理解了最復雜原理來源於概率公理以後,我們終於明白,神秘的熵原理本質上僅是「高概率的事物容易出現」這個再樸素不過的公理的一個推論。