通过结果推测特征的算法_数据挖掘十大经典算法之朴素贝叶斯

1. 5.5.1朴素贝叶斯原理

它是一种预测建模算法。之所以称为朴素贝叶斯，是因为它假设每个输入
变量是独立的。这个假设现实生活中根本不满足，但对绝大部分复杂问题仍然非常有效。
朴素贝叶斯模型由两种类型的概率组成：
1、每个类别的概率P(Cj)；
2、每个属性的条件概率P(Ai|Cj)。
比如：cj就表示男女，比如c0=男，c1=女，而Ai就表示影响预测为男女的因素（身高、
体重、鞋码），比如A0=身高，A1=体重，A2=鞋码

为了训练朴素贝叶斯分类器模型，我们需要先给出训练数据，以及这些数据对应的分
类。那么类别概率和条件概率。可从训练数据计算出来。
一旦计算出来，概率模型就可以使用贝叶斯原理对新数据进行预测。

预测的原理就是，加入我们是一个而分类问题，C0表示正样本，C1表示负样本，则预测的结果就是去比较 P(C0|A1A2A3) 与 P(C1|A1A2A3)的大小。那个样本的概率高，就被预测为哪一类。

1.贝叶斯原理是最大的概念，它解决了概率论中“逆向概率”的问题，在这个理论基础上，人们设计出了贝叶斯分类器

（1）实时预测 # 样本变化，概率变化
（2）多类预测，预测不同类别的可能性
（3）文本分类/垃圾邮件/情感分析：文本：变量类型多，更独立朴素贝叶斯：执果索因，属于某个类别是某几个单词存在与否造成的
（4）推荐系统，朴素贝叶斯和协同过滤结合过滤用户想看到和不想看到的东西

（1） 高斯分布朴素贝叶斯GaussianNB
用处：解决连续数据分类问题。
如果数据集是连续型的，如身高，数据做正态分布，数据在分布的某个位置，对应一个概率，即根据正态分布的概率密度函数算出。 # 尽可能把数据集转换成标准正态分布（stand_scaler）。不过最好是做离散再做其他的概率模型。

（2） 多项式朴素⻉叶斯MultinomialNB
用处：处理离散数据建模，数据集尽可能离散。
离散数据集（可将连续数据做离散处理，如分箱处理）
计数，身高低，1,2,3.
(3) 伯努利朴素⻉叶斯BernoulliNB
用处:数据特征可以表达是或不是，可用。
离散数据集，数据是与否，0或1

互斥事件一定不独立（因为一件事的发生导致了另一件事不能发生）；

独立事件一定不互斥（如果独立事件互斥，那么根据互斥事件一定不独立，就会矛盾）

问题修改为：到达公司未迟到选择第1条路的概率是多
少？
在知道未迟到结果的基础上问选择第一条路的概率，并不是直接可得出的。故有：

所以选择第一条路的概率为0.28
贝叶斯公式是当已知结果，问导致这个结果的第i原因的可能性是多少？执果索因！

例：
假设有一种病叫做“贝”，它的发病率是万分之一，现有一种测试可以检验一个人是否得病的准确率是 99.9%，它的误报率是 0.1%，那么现在的问题是，如果一个人被查出来患有“贝”，实际上患有的可能性有多大？

问题分析：
假设：A 表示事件 “测出为阳性”, 用 B1 表示“患有贝”, B2 表示“没有患贝”。
P(A|B1)=99.9%，P(A|B2)=0.1%。
患有贝叶死的概率为 P(B1)=0.01%，没有患贝叶死的概率 P(B2)=99.99%。
以上可以认为是先验概率。
想求 P(B1|A)

先验概率：通过经验来判断事情发生的概率，就是先验概率。也就是能根据样本值估算出来的概率
后验概率：就是发生结果之后，推测原因的概率。比如说你迟到了，那么原因可能是 A、B 或 C。其中迟到是因为原因A的概率就是后验概率。它是属于条件概率的一种。 # 及可根据先验概率求解出来的。

2. 数据挖掘十大经典算法之朴素贝叶斯

朴素贝叶斯，它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯，**是因为它假设每个输入变量是独立的。**这个假设很硬，现实生活中根本不满足，但是这项技术对于绝大部分的复杂问题仍然非常有效。

贝叶斯原理、贝叶斯分类和朴素贝叶斯这三者之间是有区别的。

贝叶斯原理是最大的概念，它解决了概率论中“逆向概率”的问题，在这个理论基础上，人们设计出了贝叶斯分类器，朴素贝叶斯分类是贝叶斯分类器中的一种，也是最简单，最常用的分类器。朴素贝叶斯之所以朴素是因为它假设属性是相互独立的，因此对实际情况有所约束，**如果属性之间存在关联，分类准确率会降低。**不过好在对于大部分情况下，朴素贝叶斯的分类效果都不错。

朴素贝叶斯分类器依靠精确的自然概率模型，在有监督学习的样本集中能获取得非常好的分类效果。在许多实际应用中，朴素贝叶斯模型参数估计使用最大似然估计方法，换而言之朴素贝叶斯模型能工作并没有用到贝叶斯概率或者任何贝叶斯模型。

朴素贝叶斯分类常用于文本分类，尤其是对于英文等语言来说，分类效果很好。它常用于垃圾文本过滤、情感预测、推荐系统等。

1、需要知道先验概率

先验概率是计算后验概率的基础。在传统的概率理论中，先验概率可以由大量的重复实验所获得的各类样本出现的频率来近似获得，其基础是“大数定律”，这一思想称为“频率主义”。而在称为“贝叶斯主义”的数理统计学派中，他们认为时间是单向的，许多事件的发生不具有可重复性，因此先验概率只能根据对置信度的主观判定来给出，也可以说由“信仰”来确定。

2、按照获得的信息对先验概率进行修正

在没有获得任何信息的时候，如果要进行分类判别，只能依据各类存在的先验概率，将样本划分到先验概率大的一类中。而在获得了更多关于样本特征的信息后，可以依照贝叶斯公式对先验概率进行修正，得到后验概率，提高分类决策的准确性和置信度。

3、分类决策存在错误率

由于贝叶斯分类是在样本取得某特征值时对它属于各类的概率进行推测，并无法获得样本真实的类别归属情况，所以分类决策一定存在错误率，即使错误率很低，分类错误的情况也可能发生。

第一阶段：准备阶段

在这个阶段我们需要确定特征属性，同时明确预测值是什么。并对每个特征属性进行适当划分，然后由人工对一部分数据进行分类，形成训练样本。

第二阶段：训练阶段

这个阶段就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率。

第三阶段：应用阶段

这个阶段是使用分类器对新数据进行分类。

优点：

（1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。

（2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。

（3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。

缺点：

（1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

（2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

（3）由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。

（4）对输入数据的表达形式很敏感。

参考：

https://blog.csdn.net/qiu__liao/article/details/90671932

https://blog.csdn.net/u011067360/article/details/24368085

导航:首页 > 源码编译 > 通过结果推测特征的算法

通过结果推测特征的算法

与通过结果推测特征的算法相关的资料