① 樸素貝葉斯(Naive Bayes)演算法
樸素貝葉斯演算法屬於分類演算法。發源於古典數學理論,對缺失數據不太敏感,有穩定的分類效率,模型所需估計的參數很少,演算法比較簡單。
樸素貝葉斯演算法 , 貝葉斯 是說明這個演算法和貝葉斯定理有聯系,而 樸素 是因為處理實際的需要,做了一個簡化—— 假設每個特徵之間是獨立的 (如果研究的對象互相之間的影響很強,計算概率時考慮的問題非常復雜,做了獨立假設,就可以分解後進行研究),這是這個演算法模型與貝葉斯定理的區別。
將 x 作為特徵,y 作為類別,那公式左邊的 P(yi|x)就是說在知道特徵 x 的情況下,計算這個特徵屬於 yi 類的可能性大小。通過比較找出這個可能性的值最大的屬於哪一類,就將特徵 x 歸為這一類。
第3步的計算就是整個關鍵所在,計算依據是上面的貝葉斯公式。
對於每一個類的概率計算,公式右邊的分母的 P(x)都是相同的,所以可以不計算(我們只是對最終結果進行比較,不影響)。
P(yi)也稱為先驗概率,是 x 屬於 yi 類的一個概率,這個是通過歷史信息得到的(在程序實現的時候,歷史信息或者說先驗信息就是我們的訓練數據集),我們通過對訓練樣本數據進行統計,分別算出 x 屬於 y1,y2,...,yn 類的概率是多少,這個是比較容易得到的。
所以,主要是求 P(x|yi)= P(a1,a2,...,am|yi)
這個時候對於貝葉斯模型的 樸素 的獨立性假設就發揮作用了(綜合的計算變成了獨立計算後的綜合,簡化模型,極大地減少了計算的復雜程度):
P(a1,a2,...,am|yi) = P(a1|yi)P(a2|yi)...P(am|yi)
所以計算想要得到的東西如下:
一個程序簡例
② 如何理解貝葉斯估計
根據貝葉斯公式,進行統計推斷,
在垃圾郵件分類方面應用很廣,方法簡單,具有很好的穩定性和健壯性
③ 貝葉斯公式通俗理解
貝葉斯公式:
推導之前,我們需要先了解一下 條件概率 :
已知數據如下:
P(A) 表是人為光頭的概率,P(B) 表示為人為程序員的概率。
則 P(A) = 4/9 ,P(B) = 3/9 = 1/3 ,P(A, B) = 2/9
P(A|B) 則為程序員中光頭的概率為:2/3
P(B|A) 則為光頭中程序員的概率:2/4 = 1/2
則按照條件概率:P(A|B) = P(A, B)/ P(B) = 2/3
貝葉斯公式:P(A|B) = P(A)·P(B|A)/P(B) = 2/3
通過上面連個公式推導發現 條件概率 和 貝葉斯 的結果是一樣的。