em演算法更新方差_高斯混合模型(GMM)和EM演算法

『壹』 GMM模型是什麼

就是用高斯概率密度函數（正態分布曲線）精確地量化事物，將一個事物分解為若乾的基於高斯概率密度函數（正態分布曲線）形成的模型。GMMs已經在數值逼近、語音識別、圖像分類、圖像去噪、圖像重構、故障診斷、視頻分析、郵件過濾、密度估計、目標識別與跟蹤等領域取得了良好的效果。

對圖像背景建立高斯模型的原理及過程：圖像灰度直方圖反映的是圖像中某個灰度值出現的頻次，也可以認為是圖像灰度概率密度的估計。如果圖像所包含的目標區域和背景區域相比比較大，且背景區域和目標區域在灰度上有一定的差異，那麼該圖像的灰度直方圖呈現雙峰-谷形狀。

主要步驟

1、為圖像的每個像素點指定一個初始的均值、標准差以及權重。

2、收集N（一般取200以上，否則很難得到像樣的結果）幀圖像利用在線EM演算法得到每個像素點的均值、標准差以及權重）。

3、從N+1幀開始檢測，檢測的方法：

對每個像素點：

1）將所有的高斯核按照ω/σ降序排序

2）選擇滿足公式的前M個高斯核：M= arg min(ω/σ>T)

3）如果當前像素點的像素值在中有一個滿足：就可以認為其為背景點。

『貳』高斯混合模型（GMM）及EM演算法的初步理解

高斯混合模型（Gaussian Mixed Model）指的是多個高斯分布函數的線性組合，理論上GMM可以擬合出任意類型的分布，通常用於解決同一集合下的數據包含多個不同的分布的情況（或者是同一類分布但參數不一樣，或者是不同類型的分布，比如正態分布和伯努利分布）。

如圖1，圖中的點在我們看來明顯分成兩個聚類。這兩個聚類中的點分別通過兩個不同的正態分布隨機生成而來。但是如果沒有GMM，那麼只能用一個的二維高斯分布來描述圖1中的數據。圖1中的橢圓即為二倍標准差的正態分布橢圓。這顯然不太合理，畢竟肉眼一看就覺得應該把它們分成兩類。

這時候就可以使用GMM了！如圖2，數據在平面上的空間分布和圖1一樣，這時使用兩個二維高斯分布來描述圖2中的數據，分別記為N(μ1,Σ1)和N(μ2,Σ2) 。圖中的兩個橢圓分別是這兩個高斯分布的二倍標准差橢圓。可以看到使用兩個二維高斯分布來描述圖中的數據顯然更合理。實際上圖中的兩個聚類的中的點是通過兩個不同的正態分布隨機生成而來。如果將兩個二維高斯分布N(μ1,Σ1)和N(μ2,Σ2) 合成一個二維的分布，那麼就可以用合成後的分布來描述圖2中的所有點。最直觀的方法就是對這兩個二維高斯分布做線性組合，用線性組合後的分布來描述整個集合中的數據。這就是高斯混合模型（GMM）。

高斯混合模型（GMM）的數學表示：

期望極大（Expectation Maximization）演算法，也稱EM演算法，是一種迭代演算法，由Dempster et. al 在1977年提出，用於含有隱變數的概率參數模型的極大似然估計。

EM演算法作為一種數據添加演算法，在近幾十年得到迅速的發展，主要源於當前科學研究以及各方面實際應用中數據量越來越大的情況下，經常存在數據缺失或者不可用的的問題，這時候直接處理數據比較困難，而數據添加辦法有很多種，常用的有神經網路擬合、添補法、卡爾曼濾波法等，但是EM演算法之所以能迅速普及主要源於它演算法簡單，穩定上升的步驟能相對可靠地找到「最優的收斂值」。

(個人的理解就是用含有隱變數的含參表達式不斷擬合，最終能收斂並擬合出不含隱變數的含參表達式)

模型的EM訓練過程，直觀的來講是這樣：我們通過觀察采樣的概率值和模型概率值的接近程度，來判斷一個模型是否擬合良好。然後我們通過調整模型以讓新模型更適配采樣的概率值。反復迭代這個過程很多次，直到兩個概率值非常接近時，我們停止更新並完成模型訓練。現在我們要將這個過程用演算法來實現，所使用的方法是模型生成的數據來決定似然值，即通過模型來計算數據的期望值。通過更新參數μ和σ來讓期望值最大化。這個過程可以不斷迭代直到兩次迭代中生成的參數變化非常小為止。該過程和k-means的演算法訓練過程很相似（k-means不斷更新類中心來讓結果最大化），只不過在這里的高斯模型中，我們需要同時更新兩個參數：分布的均值和標准差.[3]

GMM常用於聚類。如果要從 GMM 的分布中隨機地取一個點的話，實際上可以分為兩步：首先隨機地在這 K 個 Component 之中選一個，每個 Component 被選中的概率實際上就是它的系數Πk ，選中 Component 之後，再單獨地考慮從這個 Component 的分布中選取一個點就可以了──這里已經回到了普通的 Gaussian 分布，轉化為已知的問題。

根據數據來推算概率密度通常被稱作 density estimation 。特別地，當我已知（或假定）概率密度函數的形式，而要估計其中的參數的過程被稱作『參數估計』。

（推導和迭代收斂過程這里省略，可參考資料1）

一個實際的例子：用GMM對iris數據集進行聚類，並通過make_ellipses表示出來

make_ellipses方法概念上很簡單，它將gmm對象（訓練模型）、坐標軸、以及x和y坐標索引作為參數，運行後基於指定的坐標軸繪制出相應的橢圓圖形。

在特定條件下，k-means和GMM方法可以互相用對方的思想來表達。在k-means中根據距離每個點最接近的類中心來標記該點的類別，這里存在的假設是每個類簇的尺度接近且特徵的分布不存在不均勻性。這也解釋了為什麼在使用k-means前對數據進行歸一會有效果。高斯混合模型則不會受到這個約束，因為它對每個類簇分別考察特徵的協方差模型。

K-means演算法可以被視為高斯混合模型（GMM）的一種特殊形式。整體上看，高斯混合模型能提供更強的描述能力，因為聚類時數據點的從屬關系不僅與近鄰相關，還會依賴於類簇的形狀。n維高斯分布的形狀由每個類簇的協方差來決定。在協方差矩陣上添加特定的約束條件後，可能會通過GMM和k-means得到相同的結果。

在k-means方法中使用EM來訓練高斯混合模型時對初始值的設置非常敏感。而對比k-means，GMM方法有更多的初始條件要設置。實踐中不僅初始類中心要指定，而且協方差矩陣和混合權重也要設置。可以運行k-means來生成類中心，並以此作為高斯混合模型的初始條件。由此可見並兩個演算法有相似的處理過程，主要區別在於模型的復雜度不同。

高斯混合模型的基本假設是已知類別的比例和類別的個數，但是不知道每個樣例的具體標簽，據此用EM的模式為每個樣本進行最優的標注。也就是說它適合的是無標簽學習的分類問題，並且需要已知基本假設。

整體來看，所有無監督機器學習演算法都遵循一條簡單的模式：給定一系列數據，訓練出一個能描述這些數據規律的模型（並期望潛在過程能生成數據）。訓練過程通常要反復迭代，直到無法再優化參數獲得更貼合數據的模型為止。

【1】https://blog.csdn.net/jinping_shi/article/details/59613054 高斯混合模型（GMM）及其EM演算法的理解

【2】https://cloud.tencent.com/developer/news/231599 機器學習中的數學（4）-EM演算法與高斯混合模型（GMM）

【3】https://zhuanlan.hu.com/p/31103654 一文詳解高斯混合模型原理

『叄』數據挖掘十大經典演算法之EM

EM（Expectation-Maximum）演算法也稱期望最大化演算法，它是最常見的隱變數估計方法，在機器學習中有極為廣泛的用途，例如常被用來學習高斯混合模型（Gaussian mixture model，簡稱GMM）的參數；隱式馬爾科夫演算法（HMM）、LDA主題模型的變分推斷等等。

EM演算法是一種迭代優化策略，由於它的計算方法中每一次迭代都分兩步，其中一個為期望步（E步），另一個為極大步（M步），一輪輪迭代更新隱含數據和模型分布參數，直到收斂，即得到我們需要的模型參數。

1. EM演算法推導過程

補充知識：Jensen不等式：

如果f是凸函數，函數的期望大於等於期望的函數。當且僅當下式中X是常量時，該式取等號。（應用於凹函數時，不等號方向相反）

2. EM演算法流程

3. EM演算法的其他問題

上面介紹的傳統EM演算法對初始值敏感，聚類結果隨不同的初始值而波動較大。總的來說，EM演算法收斂的優劣很大程度上取決於其初始參數。

EM演算法可以保證收斂到一個穩定點，即EM演算法是一定收斂的。

EM演算法可以保證收斂到一個穩定點，但是卻不能保證收斂到全局的極大值點，因此它是局部最優的演算法，當然，如果我們的優化目標是凸的，則EM演算法可以保證收斂到全局最大值，這點和梯度下降法這樣的迭代演算法相同。

EM演算法的簡單實例： https://zhuanlan.hu.com/p/40991784

參考：

https://zhuanlan.hu.com/p/40991784

https://blog.csdn.net/u011067360/article/details/24368085

『肆』 EM Algorithm

EM演算法和之前學的都不太一樣，EM演算法更多的是一種思想，所以後面用幾個例子講解，同時也會重點講解GMM高斯混合模型。

極大似然估計這裡面用的比較多。假設我們想要知道我們學生身高的分布，首先先假設這些學生都是符合高斯分布我們要做的就是要估計這兩個參數到底是多少。學生這么多，挨個挨個來肯定是不切實際的，所以自然就是抽樣了。
為了統計學生身高，我們抽樣200個人組成樣本
我們需要估計的參數首先估計一下抽到這兩百人的概率一共是多少，抽到男生A的概率抽到學生B的概率所以同時抽到這兩個學生的概率就是那麼同時抽到這200個學生的G概率
最後再取一個對數就好了：

似然函數的執行步驟：
1.得到似然函數
2.取對數整理
3.求導數，另導數為零
4.解方程得到解

首先引出凸函數的概念那麼就是凸函數，所以它的圖像就是一個勾形的，看起來是一個凹函數，實際上是凸函數。

正常來看先是要引入一個最大似然函數：但這樣其實是和難求的，P(x|θ)完全混在了一起，根本求不出來，所以我們要引入一個輔助變數z。

所以我們引入隱變數的原因是為了轉化成和這幾個高斯模型相關的式子，否則無從下手。化簡一下上式子：既然z可以指定x，那麼我們只需要求解出z就好了。
注意上面凸函數所提到的一個期望性質，這里就可以使用了。因為雖然優化了上面的式子，還是不能求出來，因為z變數實在是太抽象了，找不到一個合適的公式來表示它。EM的一個方法就是用優化下界函數的方法來達到優化目標函數的目的。
既然z很抽象，那麼我們就需要一個轉變一下。對於每一個樣例x都會對應一個z，那麼假設一個分布Q(z)是滿足了z的分布的，而Q(z)滿足的條件是 Qi意味著每一個x對應的z都會對應著一個Q了，這里有點復雜，再詳細解釋一下。一個x對應一組z，z是一個向量，但是每一個z又會分別對應一個一個分布Q。以為最後得到的z不會是一個數字，而是一個概率，也就是說Q(z)得到的是這個x樣例屬於這個類別的概率是多少。而z的數量，一個是當前有多少個分布混合在一起的數量。
再梳理一下：現在的樣本是xi，那麼每一個xi將會對應著一組的z，每一個xi同時也會對應著一個分布Qi，z其實就是反應了這個樣本是來自於哪個分布的。比如這個x是A1分布做了3，A2分布做了5，那麼z可能就是={3,5}。所以Qi(z)得到的是這個x屬於這些個分布的概率，也就是說這些分布對x做了多少百分比的功，自然就是要等於1了。
還要注意的是，上面的這個並不能得到Qi(z)就是分布對x做了多少功的結論，得到這個結論是後面下界函數與目標函數相等得到的。這里只是知道了總和等於1，因為是分布的總和嘛。
現在就到了公式的化簡：
仔細看一下這個式子這個式子其實就是求的期望，假設，那麼可以利用上面。於是化簡：
這個時候就得到了下界函數，上面也講過了，想要相等，自然就是x要是常數，所以既然，而且z也是一樣的，因為一個樣本嘛。所以上下加和（如果是離散的，那就sum一下，連續的那就積分，這里是離散的，所以就是sum一下）。於是有
於是有：

這就是整一個EM演算法的框架了，可以看到其實沒有比較具體的演算法，大致上就是一個框架。那麼問題來了，怎麼樣證明這東西是一個收斂的？？

可以直接把高斯混合模型代入EM框架裡面。
存在多個高斯分布混合生成了一堆數據X，取各個高斯分布的概率是 ，第i個高斯分布的均值是，方差是，求法φ，μ，σ。
按照套路，第一個E-step求出Q，於是有：
意思就是求出第i個樣本屬於第j個分布的概率是多少。之後就是M-step了，就是化簡了：

這里可能需要解釋一下，根據至於條件，因為很明顯，z是隱變數，只是指明了x是屬於哪個類別，和μ，Σ沒有什麼關系，所以直接忽略那兩個參數了，所以P(z)是沒有那兩個參數的，z是代表了分布，所以每一個分布的概率肯定是包括了，所以就只有一個概率的參數。P(x|z)是本身的概率，就是已經知道分布是那個了，求屬於這個分布的概率是多少，既然已經選定了分布那麼自然就不需要再看φ了，因為φ是各個分布的概率。

現在有兩個硬幣AB，進行5次試驗每一次投10次，並不知道是哪個硬幣投的，求兩種硬幣的正面的概率。
首先E-step：
首先先初始化一下，
第一個試驗選中A的概率：
同樣求得
計算機出每一個試驗的概率然後相加求均值。
之後就是M-step了：

方差的求解就不玩了，主要就是迭代求解μ和φ的值了。
首先是生成數據，4個高斯分布，每一個高斯分布的sigma都是一樣的，不一樣的只有μ和α，也就是φ，習慣上把前面的一個參數叫做權值，所以用α來表示。

這四個模型的比例分別是1:2:3:4，使用EM來找到他們屬於的類別。

其實如果用kmeans聚類的話更加快速，但是這里還是用EM。
E-step：

就是按照公式來求解w即可，求解每一個分布對樣本點做了多少的功，之後求單個樣本點求比例。
M-step：

直接按照公式優化即可。

運行函數。看看結果：

結果其實還是相差不大。達到預期。

上面所講的其實只是一種理解方法，在李航老師的統計學習方法裡面是另一種比較厲害的解法：
1.E-step：求出Q函數。
2.M-step：利用Q函數求極大值。
其實這兩種方法是完全一樣的，Q函數就是下界函數，

EM和Kmeans演算法其實很類似，事實上步驟基本可以用EM框架來替換，但是Kmeans演算法是硬分類，說一不二，但是EM演算法不太一樣，是軟分類，百分之幾是那個，百分之幾是這個。

缺點也還是有的：初值敏感，局部最優。因為存在了隱變數，所以導致了直接對x做極大似然是不可行的，log已經在sum的外面了。所以EM演算法就轉向了下界函數，而這種方法本來就不保證找到局部最優解。

如果將樣本看作觀察值，潛在類別看作是隱藏變數，那麼聚類問題也就是參數估計問題。如果一個目標函數存在多個變數，那麼梯度下降牛頓法這些逼近方法就用不了了。但我們可以使用坐標上升方法，固定一個變數，對另外一個求導數，然後替換最後逐步逼近極值點。對應到EM演算法也是一樣，E步求隱含的z變數，Mstep求解其他參數。

『伍』高斯混合模型(GMM)和EM演算法

學號：20021110074 電院姓名：梁雪玲

【嵌牛導讀】：GMM與EM演算法的學習與推導。

【嵌牛鼻子】：GMM EM

【嵌牛提問】：GMM是什麼？EM演算法是什麼？二者之間的關系？演算法的推導？如何深入學習？

【嵌牛正文】：

在深度學習的路上，從頭開始了解一下各項技術。本人是DL小白，連續記錄我自己看的一些東西，大家可以互相交流。

本文參考：

http://www.ituring.com.cn/article/497545(GMM)

https://blog.csdn.net/xmu_jupiter/article/details/50889023(GMM)

http://www.cnblogs.com/wjy-lulu/p/7010258.html(EM演算法)

https://blog.csdn.net/zouxy09/article/details/8537620(EM演算法)

一、前言

    高斯混合模型(Gaussian Mixture Model)簡稱GMM，是一種業界廣泛使用的聚類演算法。它是多個高斯分布函數的線性組合，理論上GMM可以擬合出任意類型的分布，通常用於解決同一集合下的數據包含多種不同的分布的情況。高斯混合模型使用了期望最大(Expectation Maximization，簡稱EM)演算法進行訓練，故此我們在了解GMM之後，也需要了解如何通過EM演算法訓練(求解)GMM。

二、高斯混合模型(GMM)

在了解高斯混合模型之前，我們先了解一下這種模型的具體參數模型-高斯分布。高斯分布又稱正態分布，是一種在自然界中大量存在的，最為常見的分布形式。

    如上圖，這是一個關於身高的生態分布曲線，關於175-180對稱，中間高兩邊低，相信大家在高中已經很了解了，這里就不再闡述。

現在，我們引用《統計學習方法》-李航書中的定義，如下圖：

    根據定義，我們可以理解為，GMM是多個高斯分布的加權和，並且權重α之和等於1。這里不難理解，因為GMM最終反映出的是一個概率，而整個模型的概率之和為1，所以權重之和即為1。高斯混合模型實則不難理解，接下來我們介紹GMM的訓練(求解)方法。

PS.從數學角度看，對於一個概率模型的求解，即為求其最大值。從深度學習角度看，我們希望降低這個概率模型的損失函數，也就是希望訓練模型，獲得最大值。訓練和求解是不同專業，但相同目標的術語。

三、最大似然估計

想要了解EM演算法，我們首先需要了解最大似然估計這個概念。我們通過一個簡單的例子來解釋一下。

假設，我們需要調查學校男女生的身高分布。我們用抽樣的思想，在校園里隨機抽取了100男生和100女生，共計200個人(身高樣本數據)。我們假設整個學校的身高分布服從於高斯分布。但是這個高斯分布的均值u和方差∂2我們不知道，這兩個參數就是我們需要估計的值。記作θ=[u, ∂]T。

由於每個樣本都是獨立地從p(x|θ)中抽取的，並且所有的樣本都服從於同一個高斯分布p(x|θ)。那麼我們從整個學校中，那麼我抽到男生A（的身高）的概率是p(xA|θ)，抽到男生B的概率是p(xB|θ)。而恰好抽取出這100個男生的概率，就是每個男生的概率乘積。用下式表示：

這個概率反映了，在概率密度函數的參數是θ時，得到X這組樣本的概率。在公式中，x已知，而θ是未知，所以它是θ的函數。這個函數放映的是在不同的參數θ取值下，取得當前這個樣本集的可能性，因此稱為參數θ相對於樣本集X的似然函數（likehood function）。記為L(θ)。

我們先穿插一個小例子，來闡述似然的概念。

某位同學與一位獵人一起外出打獵，一隻野兔從前方竄過。只聽一聲槍響，野兔應聲到下，如果要你推測，這一發命中的子彈是誰打的？你就會想，只發一槍便打中，由於獵人命中的概率一般大於這位同學命中的概率，看來這一槍是獵人射中的。

      這個例子所作的推斷就體現了極大似然法的基本思想，我們並不知道具體是誰打的兔子，但是我們可以估計到一個看似正確的參數。回到男生身高的例子中。在整個學校中我們一次抽到這100個男生(樣本)，而不是其他的人，那麼我們可以認為這100個男生(樣本)出現的概率最大，用上面的似然函數L(θ)來表示。

所以，我們就只需要找到一個參數θ，其對應的似然函數L(θ)最大，也就是說抽到這100個男生（的身高）概率最大。這個叫做θ的最大似然估計量，記為：

因為L(θ)是一個連乘函數，我們為了便於分析，可以定義對數似然函數，運用對數的運算規則，把連乘轉變為連加：

PS.這種數學方法在MFCC中我們曾經用過，可以回溯一下上一篇文章。

此時，我們要求θ，只需要使θ的似然函數L(θ)極大化，然後極大值對應的θ就是我們的估計。在數學中求一個函數的最值問題，即為求導，使導數為0，解方程式即可(前提是函數L(θ)連續可微)。在深度學習中，θ是包含多個參數的向量，運用高等數學中的求偏導，固定其中一個變數的思想，即可求出極致點，解方程。

總結而言：

    最大似然估計，只是一種概率論在統計學的應用，它是參數估計的方法之一。說的是已知某個隨機樣本滿足某種概率分布，但是其中具體的參數不清楚，參數估計就是通過若干次試驗，觀察其結果，利用結果推出參數的大概值。最大似然估計是建立在這樣的思想上：已知某個參數能使這個樣本出現的概率最大，我們當然不會再去選擇其他小概率的樣本，所以乾脆就把這個參數作為估計的真實值。

    求最大似然函數估計值的一般步驟：

（1）寫出似然函數；

（2）對似然函數取對數，並整理；(化乘為加)

（3）求導數，令導數為0，得到似然方程；

（4）解似然方程，得到的參數即為所求。

四、EM演算法

期望最大(Expectation Maximization，簡稱EM)演算法，稱為機器學習十大演算法之一。它是一種從不完全數據或有數據丟失的數據集（存在隱含變數）中求解概率模型參數的最大似然估計方法。

現在，我們重新回到男女生身高分布的例子。我們通過抽取100個男生身高，並假設身高分布服從於高斯分布，我們通過最大化其似然函數，可以求的高斯分布的參數θ=[u, ∂]T了，對女生同理。但是，假如這200人，我們只能統計到其身高數據，但是沒有男女信息(其實就是面對200個樣本，抽取得到的每個樣本都不知道是從哪個分布抽取的，這對於深度學習的樣本分類很常見)。這個時候，我們需要對樣本進行兩個東西的猜測或者估計了。

    EM演算法就可以解決這個問題。假設我們想估計知道A和B兩個參數，在開始狀態下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反過來知道了B也就得到了A。可以考慮首先賦予A某種初值，以此得到B的估計值，然後從B的當前值出發，重新估計A的取值，這個過程一直持續到收斂為止。

在男女生身高分布的例子中，我們運用EM演算法的思想。首先隨便猜一下男生的高斯分布參數:均值和方差。假設均值是1.7米，方差是0.1米，然後計算出每個人更可能屬於第一個還是第二個正態分布中。這是第一步，Expectation。在分開了兩類之後，我們可以通過之前用的最大似然，通過這兩部分，重新估算第一個和第二個分布的高斯分布參數:均值和方差。這是第二步，Maximization。然後更新這兩個分布的參數。這是可以根據更新的分布，重新調整E(Expectation)步驟...如此往復，迭代到參數基本不再發生變化。

這里原作者提到了一個數學思維，很受啟發，轉給大家看一眼(比較雞湯和啰嗦，大家可以跳過)

這時候你就不服了，說你老迭代迭代的，你咋知道新的參數的估計就比原來的好啊？為什麼這種方法行得通呢？有沒有失效的時候呢？什麼時候失效呢？用到這個方法需要注意什麼問題呢？呵呵，一下子拋出那麼多問題，搞得我適應不過來了，不過這證明了你有很好的搞研究的潛質啊。呵呵，其實這些問題就是數學家需要解決的問題。在數學上是可以穩當的證明的或者得出結論的。那咱們用數學來把上面的問題重新描述下。（在這里可以知道，不管多麼復雜或者簡單的物理世界的思想，都需要通過數學工具進行建模抽象才得以使用並發揮其強大的作用，而且，這裡面蘊含的數學往往能帶給你更多想像不到的東西，這就是數學的精妙所在啊）

五、EM演算法的簡單理解方式

在提出EM演算法的推導過程之前，先提出中形象的理解方式，便於大家理解整個EM演算法，如果只是實現深度學習模型，個人認為可以不需要去看後面的演算法推導，看這個就足夠了。

坐標上升法(Coordinate ascent):

圖中的直線式迭代優化的途徑，可以看到每一步都會向最優值靠近，而每一步前進的路線都平行於坐標軸。那麼我們可以將其理解為兩個未知數的方程求解。倆個未知數求解的方式，其實是固定其中一個未知數，求另一個未知數的偏導數，之後再反過來固定後者，求前者的偏導數。EM演算法的思想，其實也是如此。使用坐標上升法，一次固定一個變數，對另外的求極值，最後逐步逼近極值。對應到EM上，E步：固定θ，優化Q；M步：固定Q，優化θ；交替將極值推向最大。

六、EM演算法推導

現在很多深度學習框架可以簡單調用EM演算法，實際上這一段大家可以不用看，直接跳過看最後的總結即可。但是如果你希望了解一些內部的邏輯，可以看一下這一段推導過程。

假設我們有一個樣本集{x(1),…,x(m)}，包含m個獨立的樣本(右上角為樣本序號)。但每個樣本i對應的類別z(i)是未知的（相當於聚類），也即隱含變數。故我們需要估計概率模型p(x,z)的參數θ(在文中可理解為高斯分布)，但是由於裡麵包含隱含變數z，所以很難用最大似然求解，但如果z知道了，那我們就很容易求解了。

首先放出似然函數公式，我們接下來對公式進行化簡：

對於參數估計，我們本質上的思路是想獲得一個使似然函數最大化的參數θ，現在多出一個未知變數z，公式(1)。那麼我們的目標就轉變為：找到適合的θ和z讓L(θ)最大。

對於多個未知數的方程分別對未知的θ和z分別求偏導，再設偏導為0，即可解方程。

因為(1)式是和的對數，當我們在求導的時候，形式會很復雜。

    這里我們需要做一個數學轉化。我們對和的部分，乘以一個相等的函數，得到(2)式，利用Jensen不等式的性質，將(2)式轉化為(3)式。(Jensen不等式數學推到比較復雜，知道結果即可)

Note:

Jensen不等式表述如下：

如果f是凸函數，X是隨機變數，那麼：E[f(X)]>=f(E[X])

特別地，如果f是嚴格凸函數，當且僅當X是常量時，上式取等號。參考鏈接: https://blog.csdn.net/zouxy09/article/details/8537620

至此，上面的式（2）和式（3）不等式可以寫成：似然函數L(θ)>=J(z,Q)，那麼我們可以通過不斷的最大化這個下界J(z,Q)函數，來使得L(θ)不斷提高，最終達到它的最大值。

    現在，我們推導出了在固定參數θ後，使下界拉升的Q(z)的計算公式就是後驗概率，解決了Q(z)如何選擇的問題。這一步就是E步，建立L(θ)的下界。接下來的M步，就是在給定Q(z)後，調整θ，去極大化L(θ)的下界J（在固定Q(z)後，下界還可以調整的更大）。

總結而言

EM演算法是一種從不完全數據或有數據丟失的數據集(存在隱藏變數)中，求解概率模型參數的最大似然估計方法。

EM的演算法流程：

1>初始化分布參數θ；

重復2>, 3>直到收斂:

2>E步驟(Expectation):根據參數初始值或上一次迭代的模型參數來計算出隱性變數的後驗概率，其實就是隱性變數的期望。作為隱藏變數的現估計值：

    3>M步驟(Maximization):將似然函數最大化以獲得新的參數值：

這個不斷迭代的過程，最終會讓E、M步驟收斂，得到使似然函數L(θ)最大化的參數θ。

在L(θ)的收斂證明:

『陸』 05 EM演算法 - 高斯混合模型 - GMM

04 EM演算法 - EM演算法收斂證明

GMM (Gaussian Mixture Model, 高斯混合模型)是指該演算法由多個高斯模型線性疊加混合而成。每個高斯模型稱之為component。

GMM演算法 描述的是數據的本身存在的一種分布，即樣本特徵屬性的分布，和預測值Y無關。顯然GMM演算法是無監督的演算法，常用於聚類應用中，component的個數就可以認為是類別的數量。

回到昨天說的例子：隨機選擇1000名用戶，測量用戶的身高；若樣本中存在男性和女性，身高分別服從高斯分布N(μ1,σ1)和N(μ2,σ2)的分布，試估計參數:μ1,σ1,μ2,σ2；

1、如果明確的知道樣本的情況(即男性和女性數據是分開的)，那麼我們使用極大似然估計來估計這個參數值。

2、如果樣本是混合而成的，不能明確的區分開，那麼就沒法直接使用極大似然估計來進行參數的估計。

我們可以認為當前的1000條數據組成的集X，是由兩個高斯分布疊加而成的(男性的分布和女性的分布)。

如果能找到一種辦法把每一個高斯分布對應的參數π、 μ、σ求出來，那麼對應的模型就求解出來了。

如果模型求解出來後，如何對數據進行聚類？

這個公式求出來的分別是男性和女性身高分布的概率密度，如果把π、 μ、σ都求出來，以後我們可以構建出一個 能夠根據樣本特徵 計算出樣本屬於男性或女性的可能性。

實際做樣本分類的時候，我們把樣本X的特徵x1~xn分別代入兩個公式中，求出來的兩個結果分別是：樣本X的性別是男、是女的可能性。如果是男的可能性大於是女的可能性，我們就把樣本X歸入男性的分類。

假定 GMM 由k個Gaussian分布線性疊加而成，那麼概率密度函數如下：

分析第1個等式：
p(x)： 概率密度函數，k個Gaussian分布線性疊加而成的概率密度函數。
∑p(k)p(x|k)： k個某種模型疊加的概率密度函數。
p(k)： 每個模型占的權重，即上面提到的π。
p(x|k)： 給定類別k後，對應的x的概率密度函數。

分析第2個等式： 目標 - 將公式寫成高斯分布的樣子。
π k ： 即p(k)
p(x;μ k ,∑ k )： 多元高斯(正態)分布。有了觀測數據x後，在 給定了條件 下的高斯分布。這個條件是 1、第k個分類的均值μ k ; 2、第k個分類的方差∑ k ;

深入分析p(x;μ k ,∑ k )的參數：
如果樣本有n個特徵，所有的特徵x1~xn一起服從一個多元的高斯分布(正態分布)，所有特徵的均值應該是一個向量 (μ 1 ~μ n )；
μ k ： 第k個分類的情況下(第k個高斯分布的情況下對應的每一列的均值)；μ k = (μ k1 ~μ kn )

∑ k ： 協方差矩陣(對稱陣)。現在有n個特徵，協方差矩陣是一個n×n的矩陣。現在我們要算的是：

cov(x1,x1)，cov(x1,x2)，...，cov(x1,xn)

cov(x2,x1)，cov(x2,x2)，...，cov(x2,xn)
....
cov(xn,x1)，cov(x1,x2)，...，cov(xn,xn)

其中， 對角線 cov(x1,x1)、cov(x2,x2)， ... ，cov(xn,xn)中，x1和x1的協方差 = x1的方差；即cov(x1,x1) = var(x1)；所以 對角線上兩個特徵的協方差 = 對應的特徵的方差。

協方差 （Covariance）在概率論和統計學中用於衡量兩個變數的總體誤差。而方差是協方差的一種特殊情況，即當兩個變數是相同的情況。

協方差表示的是兩個變數的總體的誤差，這與只表示一個變數誤差的方差不同。如果兩個變數的變化趨勢一致，也就是說如果其中一個大於自身的期望值，另外一個也大於自身的期望值，那麼兩個變數之間的協方差就是正值。如果兩個變數的變化趨勢相反，即其中一個大於自身的期望值，另外一個卻小於自身的期望值，那麼兩個變數之間的協方差就是負值。

理解了公式後，再來看看公式在圖像上是如何體現的：

如果樣本X只有一個特徵x1，在二維的坐標繫上的表示出來。特徵x1是由n個單變數樣本的高斯分布疊加而成的。向量x1 k = ∑ k (x1 (1) ,x1 (2) ,~,x1 (n) )，如k=(男、女)，累加男性分類下的特徵高斯分布和女性分類下的高斯分布；

圖中 紅色曲線 表示原有數據的分布情況，我認為這個原有數據是由多個比較的高斯分布疊加而成的， 藍色曲線 表示單個單個高斯分布的分布情況。向量x1 = (x1 (1) ,x1 (2) ,~,x1 (n) )；

PS： 藍1+藍2=紅 體現的就是公式 p(x) = ∑πp(x;μ,∑k)；

在得知數據的特徵 x=(x1~xn) 後，如果我們想把數據合理得聚類到一個分類中，我們該如何去計算呢？

既然我已經得到了k個高斯分布對應的概率密度函數(現在設k=3，共3個分類)，將當前特徵的x=(x1~xn)代入我們的概率密度函數： p(x) = ∑πp(x;μ,∑k)；

我們分別計算p(藍1)、p(藍2)、p(藍3)，藍色三條線各對應k分類中的一個，哪個數大，我認為當前的樣本該分到哪一類。

GMM演算法的兩個前提：
1、數據服從高斯分布；
2、我們人為定義了分類個數k。

問：我們人為假定了高斯分布的分類個數k，就類似於我們聚簇時分的聚簇中心個數一樣。參數π、μ、σ該如何求出來?

答：和K-Means演算法一樣，我們可以用 EM演算法 來求解這個問題。 GMM也滿足EM演算法的聚類思想，首先人為得定義了聚類的個數k，從數據特徵X中發掘潛在關系的一種模型。而且我還默認數據是服從多個高斯分布的。

GMM演算法中的隱含條件是：第k個模型占的權重 - 、第k個高斯分布的情況下對應的每一列的均值 - 、協方差矩陣 cov(xi,xj) - ；因為本質上我們是知道數據原有的分類狀況的，只是無法觀測到隱含在數據中的這些特性，使用EM的思想可以迭代得求解出這些隱含變數。

對聯合概率密度函數求對數似然函數：

對聯合概率密度函數求對數後，原本連乘的最大似然估計變成了連加的函數狀態。

EM演算法求解 - E步：

套用公式後，我們可以假定隱含變數z的分布：Q(z (i) = j)；
我們認為分布wj (i) = 第i個觀測值對應的隱含分類第z (i) 類； = 以(看不見的參數π、μ、∑)為參數的情況下，輸入第i觀測值的特徵x後得到的分類z (i) 類；

EM演算法求解 - M步：
M步第1行就是上一章通過化簡找到下界的那個函數：

1、對均值求偏導:

2、對方差求偏導:

3、對概率使用拉格朗日乘子法求解:

06 EM演算法 - 案例一 - EM分類初識及GMM演算法實現

『柒』極大似然估計和EM演算法初步

本文來自我的個人博客 https://www.zhangshenghai.com/posts/1422/

極大似然估計是在知道結果的情況下，尋求使該結果出現可能性極大的條件，以此作為估計值。在維基網路中，極大似然估計的定義是這樣的：

首先從一個例子入手，假設我們需要調查某個地區的人群身高分布，那麼先假設這個地區人群身高服從正態分布。注意，極大似然估計的前提是要假設數據總體的分布， 不知道數據分布是無法使用極大似然估計的 。假設的正態分布的均值和方差未知，這個問題中極大似然估計的目的就是要估計這兩個參數。

根據概率統計的思想，可以依據樣本估算總體，假設我們隨機抽到了1000個人，根據這1000個人的身高來估計均值和方差。

將其翻譯成數學語言：為了統計該地區的人群身高分布，我們獨立地按照概率密度抽取了1000個樣本組成樣本集，我們想通過樣本集來估計總體的未知參數。這里概率密度服從高斯分布，其中的未知參數是。

那麼怎樣估算呢？

這里每個樣本都是獨立地從中抽取的，也就是說這1000個人之間是相互獨立的。若抽到的概率是，抽到的概率是，那麼同時抽到它們的概率就是。同理，同時抽到這1000個人的概率就是他們各自概率的乘積，即為他們的聯合概率，這個聯合概率就等於這個問題的似然函數：

對 L 取對數，將其變成連加的，稱為對數似然函數，如下式：

對似然函數求所有參數的偏導數，然後讓這些偏導數為0，假設有n個參數，就可以得到n個方程組成的方程組，方程組的解就是似然函數的極值點了，在似然函數極大的情況下得到的參數值即為我們所求的值：

極大似然估計是建立在這樣的思想上：已知某個參數能使這個樣本出現的概率極大，我們當然不會再去選擇其他小概率的樣本，所以乾脆就把這個參數作為估計的真實值。

和極大似然估計一樣，EM演算法的前提也是要假設數據總體的分布， 不知道數據分布是無法使用EM演算法的 。

概率模型有時既含有觀測變數，又含有隱變數。如果概率模型的變數都是觀測變數，那麼給定數據，可以直接用極大似然估計法，或貝葉斯估計法估計模型參數。但是，當模型含有隱變數時，就不能簡單地使用這些估計方法。EM演算法就是含有隱變數的概率模型參數的極大似然估計法，或極大後驗概率估計法。

函數：完全數據的對數似然函數關於在給定觀測數據和當前參數下對未觀測數據的條件概率分布的期望

含有隱變數的概率模型，目標是極大化觀測變數關於參數的對數似然函數，即

輸入：觀測隨機變數數據，隱隨機變數數據，聯合分布，條件分布；
輸出：模型參數

『捌』 EM演算法深度解析

最近在做文本挖掘的時候遇到了EM演算法，雖然讀書的時候簡單地接觸過，但當時並沒有深入地去了解，導致現在只記得演算法的名字。既然EM演算法被列為數據挖掘的十大演算法之一，正好借這個機會，重新學習一下這個經典的演算法。學習的過程中，我發現網上的資料大多講解地不夠細致，很多地方解釋得並不明了。因此我決定拋開別人的想法，僅從數學推導本身出發，盡力理解每一個公式的含義，並將其對應到實際的實驗過程當中。這篇博客記錄了我對與EM演算法的思考與理解，也是我人生中的第一篇博客，希望能夠對於想要學習EM演算法的同學有所幫助。

前面談到我在做文本挖掘的時候遇到了EM演算法，EM演算法用於估計模型中的參數。提到參數估計，最常見的方法莫過於極大似然估計——在所有的候選參數中，我們選擇的參數應該讓樣本出現的概率最大。相信看到這篇筆記的同學一定對極大似然估計非常熟悉，而EM演算法可以看作是極大似然估計的一個擴充，這里就讓我們用極大似然估計來解決一個簡單的例子，來開始正式的討論。

有A，B，C三枚硬幣，我們想要估計A，B，C三枚硬幣拋出正面的概率 , , 。我們按如下流程進行實驗100次：

記錄100次實驗的結果如下：

我們將上面的實驗結果表述如下：
表示第i次實驗中，硬幣A的結果，1代表正面，0代表反面；表示第i次實驗中，硬幣B或硬幣C拋出正面的個數，則參數的極大似然估計分別為：

即硬幣A，B，C各自拋出正面的次數占總次數的比例，其中為指示函數。

實驗流程與1相同，但是我們不慎遺失了硬幣A的記錄結果，導致我們只知道隨後十次拋出了多少次正面，多少次反面，卻不知道實驗結果來自於硬幣B還是硬幣C。在這種情況下，我們是否還能估計出 , , 的值呢？

這時候利用極大似然估計似乎行不通了，因為這種情況下，我們不但缺失了硬幣A產生的觀測值，同時也不知道哪些觀測值屬於硬幣B，哪些觀測值屬於硬幣C。

有些同學可能會提出，雖然我們無法得到三個硬幣各自產生的樣本，但是我們依然可以得到每個觀測值出現的概率。比如在第一次實驗中，我們拋出了5次正面5次反面，我們可以做如下思考：

假設這5次正面由硬幣B得到，那麼概率應該為，而這次觀測值來自於硬幣B，也就是硬幣A拋出正面的概率為

假設這5次正面由硬幣C得到，那麼概率應該為，而這次觀測值來自於硬幣C，也就是硬幣A拋出反面的概率為

綜合起來，利用條件概率公式，這個觀測值出現的概率就是

因此我們可以將樣本整體的概率和似然函數利用 , , 表示出來，通過對似然函數求導，令其關於的偏導數等於0，我們可以求出三個參數的值。

這個思路聽上去十分合理，我們可以順著這個思路進行數學推導，看看可以得到什麼樣的結果。首先我們計算樣本的概率:

對應的似然函數為

其中關於的條件分布為

的分布為

因此我們可以得到

至此，我們成功地得到了似然函數。然而觀察可以發現，這個函數是由100項對數函數相加組成，每個對數函數內部包含一個求和，想通過求導並解出導數的零點幾乎是不可能的。當然我們可以通過梯度下降來極小化這個函數，藉助深度學習庫的自動微分系統在實現上也非常容易。但是這種做法過於簡單粗暴，有沒有辦法來優雅地解決這個問題呢？在繼續討論之前，我們先將這類問題進行一般化表述：

我們觀測到隨機變數產生的m個相互獨立的樣本 , 的分布由聯合分布決定，是缺失數據或無法在實驗中被直接觀測到，稱為 隱變數 ，我們想要從樣本中估計出模型參數的值。在接下來的討論中，我們假定的取值是離散的，於是可以得到似然函數如下:

接下來，我們就探討一下，如何利用EM演算法解決這個問題。

這一部分的數學推導，主要參考了吳恩達CS229n的筆記，並且根據個人的思考和理解，盡力對公式的每一步進行詳細的解釋。我們先簡單地介紹一下琴生不等式。

琴生不等式有多種形式，下面給出其離散形式的表述和概率論中的表述:
1.若為嚴格凹函數，為定義域內的n個點，是n個正實數，且滿足 , 則下述不等式成立:

當且僅當時，不等式取等號。

2.若為嚴格凹函數，為實值隨機變數，且期望存在，則下述不等式成立:

當且僅當，即為常數時，不等式取等號。

註：這里將函數上方為凹集的函數稱為凹函數，例如函數就是凹函數。
相信大家對琴生不等式都十分熟悉，因此這里就不做過多的說明。接下來，我們將琴生不等式應用到我們的問題中。

回到我們之前的問題上，我們想要極大化下面這個函數:

但是我們無法對這個函數直接求導，因此我們藉助琴生不等式，對這個函數進行變換。為了讓過程看上去簡潔，下面只對求和中的第項進行計算。

令滿足，且，則根據琴生不等式，可以得到：

當且僅當為常數時，上述不等式取等號。也就是說，對於任意，是一個與無關的量。設對於任意，我們可以得到：

因此當時，不等式取等號，容易驗證此時 , 與無關。將綜合一下，我們可以得到以下結論:

到這里為止，我們已經擁有了推導出EM演算法的全部數學基礎，基於我們可以構建出E步和M步。上面的數學推導雖然看上去略為復雜，但實際上只用到了三個知識點：
1.琴生不等式:

2.條件概率:

3.聯合分布求和等於邊緣分布:

對上面的數學推導有疑問的同學，可以結合上面這三點，再將整個推導過程耐心地看一遍。

大部分關於EM演算法的資料，只是在數學形式上引入了函數，即，以滿足琴生不等式的使用條件，卻沒有過多地解釋函數本身。這導致了很多人完全看懂了演算法的推導，卻還是不理解這些數學公式究竟在做什麼，甚至不明白EM演算法為什麼叫做EM演算法。所以在給出E步和M步之前，我想先談一談函數。

我們回顧一下函數所滿足的條件（暫時不考慮琴生不等式取等號的限制），

在所有可能的取值處有定義。可以看出，是的樣本空間上任意的一個概率分布。因此，我們可以對不等式進行改寫。首先我們可以將含有的求和寫成期望的形式:

這里指的是在概率分布下，求隨機變數和的期望。有同學會問，為什麼我們平時求期望的時候只要寫，並沒有指明是在哪個概率分布下的期望。這是因為一般情況下，我們都清楚地知道隨機變數所服從的分布，並且默認在分布下求期望。

舉個例子，我手上有一個硬幣，拋了10次，問拋出正面次數的期望。這種情況下，大部分人會默認硬幣是均勻的，也就是說拋出正面的次數服從二項分布，期望。這時有人提出了質疑，他說我認為你這個硬幣有問題，拋出正面的概率只有0.3，那麼在他眼裡，期望。

回到正題，我們利用等式改寫不等式，可以得到:

這正是琴生不等式在概率論中的形式。我們可以將不等式倒過來理解：
首先，假定隨機變數服從概率分布，是的樣本空間上的任意一個概率分布。這里可以是一組定值，也可以是關於參數的函數。

顯然，當我們取不同的時，隨機變數的期望也會隨之改變。需要注意的是，由於與相關，所以這里的期望不是一個數值，而是關於的函數。

當我們令為的後驗分布時，上面的期望最大。這里有兩點需要注意，1. 後驗分布也是一個關於參數的函數。2. 由於期望是關於的函數，所以這里的最大指的並非是最大值，而是最大的函數。

若對於每一個，我們都令為的後驗分布，則上述期望之和等於我們要極大化的似然函數，即

通過上述分析，我們為尋找似然函數的極大值點提供了一個思路。我們不去極大化似然函數本身，而是去極大化。至於如何將這個思路實際應用，就要利用到EM演算法中的E-step和M-step。

這一節中，我們先給出E-step和M-step的數學形式，隨後在結合拋硬幣的例子來解釋這兩步究竟在做什麼。下面進入演算法的流程，首先我們任意初始化，按下述過程進行迭代直至收斂：

在第次迭代中，
(E-step)對於每個，令
(M-step)更新的估計值，令

EM演算法從任意一點出發，依次利用E-step優化，M-step優化，重復上述過程從而逐漸逼近極大值點。而這個過程究竟是怎樣的呢，就讓我們一步步地揭開EM演算法的面紗。

假設我們現在隨機初始化了，進入第一輪迭代：
(E-step)

由於我們已經假定模型參數為，所以此時不再是與有關的函數，而是由一組常數構成的概率分布。結合拋硬幣的例子來看，這一步是在我們已知模型參數的基礎上(雖然這是我們瞎猜的)，去推測每一次的觀測值是由哪個硬幣產生的，或者說我們對每一次觀測值做一個軟分類。比如我們根據初始化的參數，計算出，。可以解釋為第個觀測值有20%的概率來自於硬幣B，80%的概率來自於硬幣C；或者說硬幣A拋出了0.2個正面，0.8個反面。

(M-step)

考慮到是一組常數，我們可以舍棄常數項，進一步簡化上面這個要極大化的函數

由於不再與相關，因此上面的函數變成了對數函數求和的形式，這個函數通常來說是容易求導的，令導數等於0，我們可以求出新的參數。我們仍舊以拋硬幣為例進行解釋，

令 , 可以得到，

這三個參數的解釋是顯而易見的。我們在E-step中對每個觀測值進行了軟分類，可以看成是硬幣A拋出正面的次數，所以是的極大似然估計；是我們拋硬幣B的次數，是硬幣B拋出正面的次數，所以是的極大似然估計；對於我們有相同的解釋。

我們將這個結果與拋硬幣1中極大似然估計的結果相比較可以發現，之前結果中的指示函數變成了這里的，在指示函數下，某個觀測值要麼來自於硬幣B，要麼來自於硬幣C，因此也稱為硬分類。而在函數下，某個觀測值可以一部分來自於硬幣B，一部分來自於硬幣C，因此也稱作軟分類。

將上述兩步綜合起來，EM演算法可以總結如下：我們首先初始化模型的參數，我們基於這個參數對每一個隱變數進行分類，此時相當於我們觀測到了隱變數。有了隱變數的觀測值之後，原來含有隱變數的模型變成了不含隱變數的模型，因此我們可以直接使用極大似然估計來更新模型的參數，再基於新的參數開始新一輪的迭代，直到參數收斂。接來下我們就討論為什麼參數一定會收斂。

前面寫了太多的公式，但是這一部分我不打算給出收斂性的數學推導。其實數學上證明EM演算法的收斂性很容易，只需要證明每一輪迭代之後，參數的似然函數遞增，即

導航:首頁 > 源碼編譯 > em演算法更新方差

em演算法更新方差

與em演算法更新方差相關的資料