1. 5.5.1樸素貝葉斯原理
它是一種預測建模演算法。之所以稱為樸素貝葉斯,是因為它假設每個輸入
變數是獨立的。這個假設現實生活中根本不滿足,但對絕大部分復雜問題仍然非常有效。
樸素貝葉斯模型由兩種類型的概率組成:
1、每個類別的概率P(Cj);
2、每個屬性的條件概率P(Ai|Cj)。
比如:cj就表示男女,比如c0=男,c1=女,而Ai就表示影響預測為男女的因素(身高、
體重、鞋碼),比如A0=身高,A1=體重,A2=鞋碼
為了訓練樸素貝葉斯分類器模型,我們需要先給出訓練數據,以及這些數據對應的分
類。那麼類別概率和條件概率。可從訓練數據計算出來。
一旦計算出來,概率模型就可以使用貝葉斯原理對新數據進行預測。
預測的原理就是,加入我們是一個而分類問題,C0表示正樣本,C1表示負樣本,則預測的結果就是去比較 P(C0|A1A2A3) 與 P(C1|A1A2A3)的大小。那個樣本的概率高,就被預測為哪一類。
1.貝葉斯原理是最大的概念,它解決了概率論中「逆向概率」的問題,在這個理論基礎上,人們設計出了貝葉斯分類器
(1)實時預測 # 樣本變化,概率變化
(2)多類預測,預測不同類別的可能性
(3)文本分類/垃圾郵件/情感分析 : 文本:變數類型多,更獨立 樸素貝葉斯:執果索因,屬於某個類別是某幾個單詞存在與否造成的
(4)推薦系統,樸素貝葉斯和協同過濾結合過濾用戶想看到和不想看到的東西
(1) 高斯分布樸素貝葉斯GaussianNB
用處:解決連續數據分類問題。
如果數據集是連續型的,如身高,數據做正態分布,數據在分布的某個位置,對應一個概率,即根據正態分布的概率密度函數算出。 # 盡可能把數據集轉換成標准正態分布(stand_scaler)。不過最好是做離散再做其他的概率模型。
(2) 多項式樸素⻉葉斯MultinomialNB
用處:處理離散數據建模,數據集盡可能離散。
離散數據集(可將連續數據做離散處理,如分箱處理)
計數,身高低,1,2,3.
(3) 伯努利樸素⻉葉斯BernoulliNB
用處:數據特徵可以表達是或不是,可用。
離散數據集,數據是與否,0或1
互斥事件一定不獨立(因為一件事的發生導致了另一件事不能發生);
獨立事件一定不互斥(如果獨立事件互斥, 那麼根據互斥事件一定不獨立,就會矛盾)
問題修改為:到達公司未遲到選擇第1條路的概率是多
少?
在知道未遲到結果的基礎上問選擇第一條路的概率,並不是直接可得出的。 故有:
所以選擇第一條路的概率為0.28
貝葉斯公式是當已知結果,問導致這個結果的第i原因的可能性是多少?執果索因!
例:
假設有一種病叫做「貝」,它的發病率是萬分之一,現有一種測試可以檢驗一個人是否得病的准確率是 99.9%,它的誤報率是 0.1%,那麼現在的問題是,如果一個人被查出來患有「貝」,實際上患有的可能性有多大?
問題分析:
假設:A 表示事件 「測出為陽性」, 用 B1 表示「患有貝」, B2 表示「沒有患貝」。
P(A|B1)=99.9%,P(A|B2)=0.1%。
患有貝葉死的概率為 P(B1)=0.01%,沒有患貝葉死的概率 P(B2)=99.99%。
以上可以認為是先驗概率。
想求 P(B1|A)
先驗概率: 通過經驗來判斷事情發生的概率,就是先驗概率。也就是能根據樣本值估算出來的概率
後驗概率: 就是發生結果之後,推測原因的概率。比如說你遲到了,那麼原因可能是 A、B 或 C。其中遲到是因為原因A的概率就是後驗概率。它是屬於條件概率的一種。 # 及可根據先驗概率求解出來的。
2. 數據挖掘十大經典演算法之樸素貝葉斯
樸素貝葉斯,它是一種簡單但極為強大的預測建模演算法。之所以稱為樸素貝葉斯,**是因為它假設每個輸入變數是獨立的。**這個假設很硬,現實生活中根本不滿足,但是這項技術對於絕大部分的復雜問題仍然非常有效。
貝葉斯原理、貝葉斯分類和樸素貝葉斯這三者之間是有區別的。
貝葉斯原理是最大的概念,它解決了概率論中「逆向概率」的問題,在這個理論基礎上,人們設計出了貝葉斯分類器,樸素貝葉斯分類是貝葉斯分類器中的一種,也是最簡單,最常用的分類器。樸素貝葉斯之所以樸素是因為它假設屬性是相互獨立的,因此對實際情況有所約束,**如果屬性之間存在關聯,分類准確率會降低。**不過好在對於大部分情況下,樸素貝葉斯的分類效果都不錯。
樸素貝葉斯分類器依靠精確的自然概率模型,在有監督學習的樣本集中能獲取得非常好的分類效果。在許多實際應用中,樸素貝葉斯模型參數估計使用最大似然估計方法,換而言之樸素貝葉斯模型能工作並沒有用到貝葉斯概率或者任何貝葉斯模型。
樸素貝葉斯分類 常用於文本分類 ,尤其是對於英文等語言來說,分類效果很好。它常用於垃圾文本過濾、情感預測、推薦系統等。
1、 需要知道先驗概率
先驗概率是計算後驗概率的基礎。在傳統的概率理論中,先驗概率可以由大量的重復實驗所獲得的各類樣本出現的頻率來近似獲得,其基礎是「大數定律」,這一思想稱為「頻率主義」。而在稱為「貝葉斯主義」的數理統計學派中,他們認為時間是單向的,許多事件的發生不具有可重復性,因此先驗概率只能根據對置信度的主觀判定來給出,也可以說由「信仰」來確定。
2、按照獲得的信息對先驗概率進行修正
在沒有獲得任何信息的時候,如果要進行分類判別,只能依據各類存在的先驗概率,將樣本劃分到先驗概率大的一類中。而在獲得了更多關於樣本特徵的信息後,可以依照貝葉斯公式對先驗概率進行修正,得到後驗概率,提高分類決策的准確性和置信度。
3、分類決策存在錯誤率
由於貝葉斯分類是在樣本取得某特徵值時對它屬於各類的概率進行推測,並無法獲得樣本真實的類別歸屬情況,所以分類決策一定存在錯誤率,即使錯誤率很低,分類錯誤的情況也可能發生。
第一階段:准備階段
在這個階段我們需要確定特徵屬性,同時明確預測值是什麼。並對每個特徵屬性進行適當劃分,然後由人工對一部分數據進行分類,形成訓練樣本。
第二階段:訓練階段
這個階段就是生成分類器,主要工作是 計算每個類別在訓練樣本中的出現頻率 及 每個特徵屬性劃分對每個類別的條件概率。
第三階段:應用階段
這個階段是使用分類器對新數據進行分類。
優點:
(1)樸素貝葉斯模型發源於古典數學理論,有穩定的分類效率。
(2)對小規模的數據表現很好,能個處理多分類任務,適合增量式訓練,尤其是數據量超出內存時,我們可以一批批的去增量訓練。
(3)對缺失數據不太敏感,演算法也比較簡單,常用於文本分類。
缺點:
(1)理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此,這是因為樸素貝葉斯模型給定輸出類別的情況下,假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好。對於這一點,有半樸素貝葉斯之類的演算法通過考慮部分關聯性適度改進。
(2)需要知道先驗概率,且先驗概率很多時候取決於假設,假設的模型可以有很多種,因此在某些時候會由於假設的先驗模型的原因導致預測效果不佳。
(3)由於我們是通過先驗和數據來決定後驗的概率從而決定分類,所以分類決策存在一定的錯誤率。
(4)對輸入數據的表達形式很敏感。
參考:
https://blog.csdn.net/qiu__liao/article/details/90671932
https://blog.csdn.net/u011067360/article/details/24368085