① 朴素贝叶斯(Naive Bayes)算法
朴素贝叶斯算法属于分类算法。发源于古典数学理论,对缺失数据不太敏感,有稳定的分类效率,模型所需估计的参数很少,算法比较简单。
朴素贝叶斯算法 , 贝叶斯 是说明这个算法和贝叶斯定理有联系,而 朴素 是因为处理实际的需要,做了一个简化—— 假设每个特征之间是独立的 (如果研究的对象互相之间的影响很强,计算概率时考虑的问题非常复杂,做了独立假设,就可以分解后进行研究),这是这个算法模型与贝叶斯定理的区别。
将 x 作为特征,y 作为类别,那公式左边的 P(yi|x)就是说在知道特征 x 的情况下,计算这个特征属于 yi 类的可能性大小。通过比较找出这个可能性的值最大的属于哪一类,就将特征 x 归为这一类。
第3步的计算就是整个关键所在,计算依据是上面的贝叶斯公式。
对于每一个类的概率计算,公式右边的分母的 P(x)都是相同的,所以可以不计算(我们只是对最终结果进行比较,不影响)。
P(yi)也称为先验概率,是 x 属于 yi 类的一个概率,这个是通过历史信息得到的(在程序实现的时候,历史信息或者说先验信息就是我们的训练数据集),我们通过对训练样本数据进行统计,分别算出 x 属于 y1,y2,...,yn 类的概率是多少,这个是比较容易得到的。
所以,主要是求 P(x|yi)= P(a1,a2,...,am|yi)
这个时候对于贝叶斯模型的 朴素 的独立性假设就发挥作用了(综合的计算变成了独立计算后的综合,简化模型,极大地减少了计算的复杂程度):
P(a1,a2,...,am|yi) = P(a1|yi)P(a2|yi)...P(am|yi)
所以计算想要得到的东西如下:
一个程序简例
② 如何理解贝叶斯估计
根据贝叶斯公式,进行统计推断,
在垃圾邮件分类方面应用很广,方法简单,具有很好的稳定性和健壮性
③ 贝叶斯公式通俗理解
贝叶斯公式:
推导之前,我们需要先了解一下 条件概率 :
已知数据如下:
P(A) 表是人为光头的概率,P(B) 表示为人为程序员的概率。
则 P(A) = 4/9 ,P(B) = 3/9 = 1/3 ,P(A, B) = 2/9
P(A|B) 则为程序员中光头的概率为:2/3
P(B|A) 则为光头中程序员的概率:2/4 = 1/2
则按照条件概率:P(A|B) = P(A, B)/ P(B) = 2/3
贝叶斯公式:P(A|B) = P(A)·P(B|A)/P(B) = 2/3
通过上面连个公式推导发现 条件概率 和 贝叶斯 的结果是一样的。