数据挖掘分类算法例子_三种经典的数据挖掘算法

❶ 数据挖掘有哪些典型的应用和算法

C4.5

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
2) 在树构造过程中进行剪枝；
3) 能够完成对连续属性的离散化处理；
4) 能够对不完整数据进行处理。

C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

2. The k-means algorithm 即K-Means算法

k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

3. Support vector machines

支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。

4. The Apriori algorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

5. 最大期望(EM)算法

在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。

6. PageRank

PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。

PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。

7. AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

8. kNN: k-nearest neighbor classification

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

9. Naive Bayes

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。

10. CART: 分类与回归树

CART, Classification and Regression Trees。在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。

❷ 用于数据挖掘的分类算法有哪些，各有何优劣

1、朴素贝叶斯(Naive Bayes, NB)

简单，就像做一些数数的工作。

如果条件独立假设成立的话,NB将比鉴别模型（如Logistic回归）收敛的更快,所以你只需要少量的训练数据。

如果你想做类似半监督学习,或者是既要模型简单又要性能好,NB值得尝试.

2.Logistic回归(Logistic Regression, LR)

LR有很多方法来对模型正则化。比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。

如果你想要一些概率信息（如,为了更容易的调整分类阈值,得到分类的不确定性,得到置信区间）,或者希望将来有更多数据时能方便的更新改进模型,LR是值得使用的.

3.决策树（Decision Tree, DT）

DT是非参数的，所以你不需要担心野点（或离群点）和数据是否线性可分的问题（例如,DT可以轻松的处理这种情况：属于A类的样本的特征x取值往往非常小或者非常大，而属于B类的样本的特征x取值在中间范围）。

DT的主要缺点是容易过拟合，这也正是随机森林（Random Forest, RF）（或者Boosted树）等集成学习算法被提出来的原因。

此外,RF在很多分类问题中经常表现得最好，且速度快可扩展,也不像SVM那样需要调整大量的参数,所以最近RF是一个非常流行的算法.

4.支持向量机（Support Vector Machine, SVM）

很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。

SVM在维数通常很高的文本分类中非常的流行。由于较大的内存需求和繁琐的调参，我认为RF已经开始威胁其地位了.

❸ 数据挖掘算法与生活中的应用案例

数据挖掘算法与生活中的应用案例

如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的着作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等，这些问题似乎都很专业，都不太好回答。但是，如果了解一点点数据挖掘的知识，你，或许会有柳暗花明的感觉。
本文，主要想简单介绍下数据挖掘中的算法，以及它包含的类型。然后，通过现实中触手可及的、活生生的案例，去诠释它的真实存在。一般来说，数据挖掘的算法包含四种类型，即分类、预测、聚类、关联。前两种属于有监督学习，后两种属于无监督学习，属于描述性的模式识别和发现。
有监督学习有监督的学习，即存在目标变量，需要探索特征变量和目标变量之间的关系，在目标变量的监督下学习和优化算法。例如，信用评分模型就是典型的有监督学习，目标变量为“是否违约”。算法的目的在于研究特征变量（人口统计、资产属性等）和目标变量之间的关系。
分类算法分类算法和预测算法的最大区别在于，前者的目标变量是分类离散型（例如，是否逾期、是否肿瘤细胞、是否垃圾邮件等），后者的目标变量是连续型。一般而言，具体的分类算法包括，逻辑回归、决策树、KNN、贝叶斯判别、SVM、随机森林、神经网络等。
预测算法预测类算法，其目标变量一般是连续型变量。常见的算法，包括线性回归、回归树、神经网络、SVM等。
无监督学习无监督学习，即不存在目标变量，基于数据本身，去识别变量之间内在的模式和特征。例如关联分析，通过数据发现项目A和项目B之间的关联性。例如聚类分析，通过距离，将所有样本划分为几个稳定可区分的群体。这些都是在没有目标变量监督下的模式识别和分析。
聚类分析聚类的目的就是实现对样本的细分，使得同组内的样本特征较为相似，不同组的样本特征差异较大。常见的聚类算法包括kmeans、系谱聚类、密度聚类等。
关联分析关联分析的目的在于，找出项目（item）之间内在的联系。常常是指购物篮分析，即消费者常常会同时购买哪些产品（例如游泳裤、防晒霜），从而有助于商家的捆绑销售。
基于数据挖掘的案例和应用上文所提到的四种算法类型（分类、预测、聚类、关联），是比较传统和常见的。还有其他一些比较有趣的算法分类和应用场景，例如协同过滤、异常值分析、社会网络、文本分析等。下面，想针对不同的算法类型，具体的介绍下数据挖掘在日常生活中真实的存在。下面是能想到的、几个比较有趣的、和生活紧密关联的例子。
基于分类模型的案例这里面主要想介绍两个案例，一个是垃圾邮件的分类和判断，另外一个是在生物医药领域的应用，即肿瘤细胞的判断和分辨。
垃圾邮件的判别邮箱系统如何分辨一封Email是否属于垃圾邮件？这应该属于文本挖掘的范畴，通常会采用朴素贝叶斯的方法进行判别。它的主要原理是，根据邮件正文中的单词，是否经常出现在垃圾邮件中，进行判断。例如，如果一份邮件的正文中包含“报销”、“发票”、“促销”等词汇时，该邮件被判定为垃圾邮件的概率将会比较大。
一般来说，判断邮件是否属于垃圾邮件，应该包含以下几个步骤。
第一，把邮件正文拆解成单词组合，假设某篇邮件包含100个单词。
第二，根据贝叶斯条件概率，计算一封已经出现了这100个单词的邮件，属于垃圾邮件的概率和正常邮件的概率。如果结果表明，属于垃圾邮件的概率大于正常邮件的概率。那么该邮件就会被划为垃圾邮件。
医学上的肿瘤判断如何判断细胞是否属于肿瘤细胞呢？肿瘤细胞和普通细胞，有差别。但是，需要非常有经验的医生，通过病理切片才能判断。如果通过机器学习的方式，使得系统自动识别出肿瘤细胞。此时的效率，将会得到飞速的提升。并且，通过主观（医生）+客观（模型）的方式识别肿瘤细胞，结果交叉验证，结论可能更加靠谱。
如何操作？通过分类模型识别。简言之，包含两个步骤。首先，通过一系列指标刻画细胞特征，例如细胞的半径、质地、周长、面积、光滑度、对称性、凹凸性等等，构成细胞特征的数据。其次，在细胞特征宽表的基础上，通过搭建分类模型进行肿瘤细胞的判断。
基于预测模型的案例这里面主要想介绍两个案例。即通过化学特性判断和预测红酒的品质。另外一个是，通过搜索引擎来预测和判断股价的波动和趋势。
红酒品质的判断如何评鉴红酒？有经验的人会说，红酒最重要的是口感。而口感的好坏，受很多因素的影响，例如年份、产地、气候、酿造的工艺等等。但是，统计学家并没有时间去品尝各种各样的红酒，他们觉得通过一些化学属性特征就能够很好地判断红酒的品质了。并且，现在很多酿酒企业其实也都这么干了，通过监测红酒中化学成分的含量，从而控制红酒的品质和口感。
那么，如何判断鉴红酒的品质呢？
第一步，收集很多红酒样本，整理检测他们的化学特性，例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。
第二步，通过分类回归树模型进行预测和判断红酒的品质和等级。
搜索引擎的搜索量和股价波动一只南美洲热带雨林中的蝴蝶，偶尔扇动了几下翅膀，可以在两周以后，引起美国德克萨斯州的一场龙卷风。你在互联网上的搜索是否会影响公司股价的波动？
很早之前，就已经有文献证明，互联网关键词的搜索量（例如流感）会比疾控中心提前1到2周预测出某地区流感的爆发。
同样，现在也有些学者发现了这样一种现象，即公司在互联网中搜索量的变化，会显着影响公司股价的波动和趋势，即所谓的投资者注意力理论。该理论认为，公司在搜索引擎中的搜索量，代表了该股票被投资者关注的程度。因此，当一只股票的搜索频数增加时，说明投资者对该股票的关注度提升，从而使得该股票更容易被个人投资者购买，进一步地导致股票价格上升，带来正向的股票收益。这是已经得到无数论文验证了的。
基于关联分析的案例：沃尔玛的啤酒尿布啤酒尿布是一个非常非常古老陈旧的故事。故事是这样的，沃尔玛发现一个非常有趣的现象，即把尿布与啤酒这两种风马牛不相及的商品摆在一起，能够大幅增加两者的销量。原因在于，美国的妇女通常在家照顾孩子，所以，她们常常会嘱咐丈夫在下班回家的路上为孩子买尿布，而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。沃尔玛从数据中发现了这种关联性，因此，将这两种商品并置，从而大大提高了关联销售。
啤酒尿布主要讲的是产品之间的关联性，如果大量的数据表明，消费者购买A商品的同时，也会顺带着购买B产品。那么A和B之间存在关联性。在超市中，常常会看到两个商品的捆绑销售，很有可能就是关联分析的结果。
基于聚类分析的案例：零售客户细分对客户的细分，还是比较常见的。细分的功能，在于能够有效的划分出客户群体，使得群体内部成员具有相似性，但是群体之间存在差异性。其目的在于识别不同的客户群体，然后针对不同的客户群体，精准地进行产品设计和推送，从而节约营销成本，提高营销效率。
例如，针对商业银行中的零售客户进行细分，基于零售客户的特征变量（人口特征、资产特征、负债特征、结算特征），计算客户之间的距离。然后，按照距离的远近，把相似的客户聚集为一类，从而有效的细分客户。将全体客户划分为诸如，理财偏好者、基金偏好者、活期偏好者、国债偏好者、风险均衡者、渠道偏好者等。
基于异常值分析的案例：支付中的交易欺诈侦测采用支付宝支付时，或者刷信用卡支付时，系统会实时判断这笔刷卡行为是否属于盗刷。通过判断刷卡的时间、地点、商户名称、金额、频率等要素进行判断。这里面基本的原理就是寻找异常值。如果您的刷卡被判定为异常，这笔交易可能会被终止。
异常值的判断，应该是基于一个欺诈规则库的。可能包含两类规则，即事件类规则和模型类规则。第一，事件类规则，例如刷卡的时间是否异常（凌晨刷卡）、刷卡的地点是否异常（非经常所在地刷卡）、刷卡的商户是否异常（被列入黑名单的套现商户）、刷卡金额是否异常（是否偏离正常均值的三倍标准差）、刷卡频次是否异常（高频密集刷卡）。第二，模型类规则，则是通过算法判定交易是否属于欺诈。一般通过支付数据、卖家数据、结算数据，构建模型进行分类问题的判断。
基于协同过滤的案例：电商猜你喜欢和推荐引擎电商中的猜你喜欢，应该是大家最为熟悉的。在京东商城或者亚马逊购物，总会有“猜你喜欢”、“根据您的浏览历史记录精心为您推荐”、“购买此商品的顾客同时也购买了商品”、“浏览了该商品的顾客最终购买了商品”，这些都是推荐引擎运算的结果。
这里面，确实很喜欢亚马逊的推荐，通过“购买该商品的人同时购买了**商品”，常常会发现一些质量比较高、较为受认可的书。一般来说，电商的“猜你喜欢”（即推荐引擎）都是在协同过滤算法（Collaborative Filter）的基础上，搭建一套符合自身特点的规则库。即该算法会同时考虑其他顾客的选择和行为，在此基础上搭建产品相似性矩阵和用户相似性矩阵。基于此，找出最相似的顾客或最关联的产品，从而完成产品的推荐。
基于社会网络分析的案例：电信中的种子客户种子客户和社会网络，最早出现在电信领域的研究。即，通过人们的通话记录，就可以勾勒出人们的关系网络。电信领域的网络，一般会分析客户的影响力和客户流失、产品扩散的关系。
基于通话记录，可以构建客户影响力指标体系。采用的指标，大概包括如下，一度人脉、二度人脉、三度人脉、平均通话频次、平均通话量等。基于社会影响力，分析的结果表明，高影响力客户的流失会导致关联客户的流失。其次，在产品的扩散上，选择高影响力客户作为传播的起点，很容易推动新套餐的扩散和渗透。
此外，社会网络在银行（担保网络）、保险（团伙欺诈）、互联网（社交互动）中也都有很多的应用和案例。
基于文本分析的案例这里面主要想介绍两个案例。一个是类似“扫描王”的APP，直接把纸质文档扫描成电子文档。相信很多人都用过，这里准备简单介绍下原理。另外一个是，江湖上总是传言红楼梦的前八十回和后四十回，好像并非都是出自曹雪芹之手，这里面准备从统计的角度聊聊。
字符识别：扫描王APP手机拍照时会自动识别人脸，还有一些APP，例如扫描王，可以扫描书本，然后把扫描的内容自动转化为word。这些属于图像识别和字符识别（Optical Character Recognition）。图像识别比较复杂，字符识别理解起来比较容易些。
查找了一些资料，字符识别的大概原理如下，以字符S为例。
第一，把字符图像缩小到标准像素尺寸，例如12*16。注意，图像是由像素构成，字符图像主要包括黑、白两种像素。
第二，提取字符的特征向量。如何提取字符的特征，采用二维直方图投影。就是把字符（12*16的像素图）往水平方向和垂直方向上投影。水平方向有12个维度，垂直方向有16个维度。这样分别计算水平方向上各个像素行中黑色像素的累计数量、垂直方向各个像素列上的黑色像素的累计数量。从而得到水平方向12个维度的特征向量取值，垂直方向上16个维度的特征向量取值。这样就构成了包含28个维度的字符特征向量。
第三，基于前面的字符特征向量，通过神经网络学习，从而识别字符和有效分类。
文学着作与统计：红楼梦归属这是非常着名的一个争论，悬而未决。对于红楼梦的作者，通常认为前80回合是曹雪芹所着，后四十回合为高鹗所写。其实主要问题，就是想确定，前80回合和后40回合是否在遣词造句方面存在显着差异。
这事让一群统计学家比较兴奋了。有些学者通过统计名词、动词、形容词、副词、虚词出现的频次，以及不同词性之间的相关系做判断。有些学者通过虚词（例如之、其、或、亦、了、的、不、把、别、好），判断前后文风的差异。有些学者通过场景（花卉、树木、饮食、医药与诗词）频次的差异，来做统计判断。总而言之，主要通过一些指标量化，然后比较指标之间是否存在显着差异，借此进行写作风格的判断。

以上是小编为大家分享的关于数据挖掘算法与生活中的应用案例的相关内容，更多信息可以关注环球青藤分享更多干货

❹ 三种经典的数据挖掘算法

算法，可以说是很多技术的核心，而数据挖掘也是这样的。数据挖掘中有很多的算法，正是这些算法的存在，我们的数据挖掘才能够解决更多的问题。如果我们掌握了这些算法，我们就能够顺利地进行数据挖掘工作，在这篇文章我们就给大家简单介绍一下数据挖掘的经典算法，希望能够给大家带来帮助。
1.KNN算法
KNN算法的全名称叫做k-nearest neighbor classification，也就是K最近邻，简称为KNN算法，这种分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似，即特征空间中最邻近的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法常用于数据挖掘中的分类，起到了至关重要的作用。
2.Naive Bayes算法
在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。这种算法在数据挖掘工作使用率还是挺高的，一名优秀的数据挖掘师一定懂得使用这一种算法。
3.CART算法
CART, 也就是Classification and Regression Trees。就是我们常见的分类与回归树，在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。这两个思想也就决定了这种算法的地位。
在这篇文章中我们给大家介绍了关于KNN算法、Naive Bayes算法、CART算法的相关知识，其实这三种算法在数据挖掘中占据着很高的地位，所以说如果要从事数据挖掘行业一定不能忽略这些算法的学习。

❺ 常用的数据挖掘算法有哪几类

常用的数据挖掘算法分为以下几类：神经网络，遗传算法，回归算法，聚类分析算法，贝耶斯算法。

目前已经进入大数据的时代，所以数据挖掘和大数据分析的就业前景非常好，学好大数据分析和数据挖掘可以在各个领域中发挥自己的价值；同时，大数据分析并不是一蹴而就的事情，而是需要你日积月累的数据处理经验，不是会被轻易替代的。一家公司的各项工作，基本上都都用数据体现出来，一位高级的数据分析师职位通常是数据职能架构中领航者，拥有较高的分析和思辨能力，对于业务的理解到位，并且深度知晓公司的管理和商业行为，他可以负责一个子产品或模块级别的项目，带领团队来全面解决问题，把控手下数据分析师的工作质量。

想要了解更多有关数据挖掘算法的信息，可以了解一下CDA数据分析师的课程。课程教你学企业需要的敏捷算法建模能力，可以学到前沿且实用的技术，挖掘数据的魅力;教你用可落地、易操作的数据科学思维和技术模板构建出优秀模型，只教实用干货，以专精技术能力提升业务效果与效率。点击预约免费试听课。

❻ 数据挖掘-朴素贝叶斯算法

朴素贝叶斯算法，主要用于对相互独立的属性的类变量的分类预测。（各个属性/特征之间完全没有关系，叫做相互独立，事实上这很难存在，但是这个方法依然比较有效。）

大学的概率论里一般都学过这个贝叶斯定理，简单阐述如下：

若事件，，…构成一个事件且都有正概率，则对任意一个事件Y，有如下公式成立：则有

如果X表示特征/属性，Y表示类变量，如果类变量和属性之间的关系不确定，那么X和Y可以视作随机变量，则为Y的后验概率，为Y的先验概率。
以图为例：

我们需要根据身高、体重、鞋码判断是男是女，则Y就是性别，X就是（身高、体重、鞋码）这一组特征。如果我们要先算是男的概率，则先验概率就是，而后验概率则是我们未来将要输入的一组特征已知的情况下，Y=男的概率（要预测的分类的概率），这样的话，根据贝叶斯定理，我们就可以用来求出，这就是贝叶斯定理在预测中的应用。

假设Y变量取y值时概率为P(Y=y)，X中的各个特征相互独立，则有公式如下：
其中每个特征集X包含d个特征。
根据公式，对比上面的图来说，如果性别是男的时候，身高是高，体重是重，鞋码为大的概率就等于

有了这个公式，结合之前的贝叶斯公式，就能得到给定一组特征值的情况下，这组特征属于什么样的类别的概率公式：
其中的X代表一组特征，代表一组中的一个。
对于所有的Y来说，P(X)时固定的，因此只要找出使分子最大的类别就可以判断预测的类别了。

的概率分为两种情况来区别，一种是对分类特征的概率确定，一种是连续特征的概率确定。

接下来借用《数据挖掘导论》上的例子来说明概率确定的方式。

对于分类的特征，可以首先找到训练集中为y值的个数，然后根据不同的特征类型占这些个数中的比例作为分类特征的概率。
例如上表中求不拖欠贷款的情况下，有房的人数就是，不拖欠贷款的有7个，其中有房的是3个。以此类推可以求出婚姻状况的条件概率。
年收入是连续特征，需要区分对待。

根据上述算法，如果要求没有拖欠贷款情况下，年收入是120K的概率，就是

如果要预测测试记录 X =（有房=否，婚姻状况=已婚，年收入=120K）这个样本是否可能拖欠贷款，则需要计算两个概率：和
则有：
由于是不变的（对于Y=是和Y=否），则只考虑上面的分子即可，那么抛开P(X)不看，则有：

其中7/10就是P(Y=否)，α是P(X)
同理可得P(Y=是|X) = 1 * 0 * 1.2e-1 = 0.
这样一比较，那么分类就是否。

看这个例子中，如果有一个特征的条件概率是0，那么整体的概率就是0，从而后验概率也一定是0，那么如果训练集样本太少，这种方法就不是很准确了。
如果当训练集样本个数比特征还少的时候，就无法分类某些测试集了，因此引入 m估计(m-estimate) 来估计条件概率，公式如下：

其中，n是类中的样本总数，是类中取的样本数，是称为等价样本大小的参数，是用户指定的参数，p可以看作在类中观察特征值的先验概率。等价样本大小决定先验概率和观测概率之间的平衡。

引入m估计的根本原因是样本数量过小。所以为了避免此问题，最好的方法是等效的扩大样本的数量，即在为观察样本添加m个等效的样本，所以要在该类别中增加的等效的类别的数量就是等效样本数m乘以先验估计p。

在之前的例子中，设m=3,p=1/3（m可以设置为特征数量，p则是倒数）。则：
从而可以重新计算。从而解决了某个条件概率为0的问题。

面对相互独立的特征比较适用，如果有相关的特征，则会降低其性能。

❼ 数据挖掘算法有哪些

以下主要是常见的10种数据挖掘的算法，数据挖掘分为：分类（Logistic回归模型、神经网络、支持向量机等）、关联分析、聚类分析、孤立点分析。每一大类下都有好几种算法，这个具体可以参考数据挖掘概论这本书（英文最新版）

❽ 数据挖掘-决策树算法

决策树算法是一种比较简易的监督学习分类算法，既然叫做决策树，那么首先他是一个树形结构，简单写一下树形结构（数据结构的时候学过不少了）。

树状结构是一个或多个节点的有限集合，在决策树里，构成比较简单，有如下几种元素：

在决策树中，每个叶子节点都有一个类标签，非叶子节点包含对属性的测试条件，用此进行分类。
所以个人理解，决策树就是对一些样本，用树形结构对样本的特征进行分支，分到叶子节点就能得到样本最终的分类，而其中的非叶子节点和分支就是分类的条件，测试和预测分类就可以照着这些条件来走相应的路径进行分类。

根据这个逻辑，很明显决策树的关键就是如何找出决策条件和什么时候算作叶子节点即决策树终止。

决策树的核心是为不同类型的特征提供表示决策条件和对应输出的方法，特征类型和划分方法包括以下几个：

注意，这些图中的第二层都是分支，不是叶子节点。

如何合理的对特征进行划分，从而找到最优的决策模型呢？在这里需要引入信息熵的概念。

先来看熵的概念：

在数据集中，参考熵的定义，把信息熵描述为样本中的不纯度，熵越高，不纯度越高，数据越混乱（越难区分分类）。

例如：要给（0，1）分类，熵是0，因为能明显分类，而均衡分布的（0.5，0.5）熵比较高，因为难以划分。

信息熵的计算公式为：
其中代表信息熵。是类的个数，代表在类时发生的概率。
另外有一种Gini系数，也可以用来衡量样本的不纯度：
其中代表Gini系数，一般用于决策树的 CART算法 。

举个例子：

如果有上述样本，那么样本中可以知道，能被分为0类的有3个，分为1类的也有3个，那么信息熵为：
Gini系数为：
总共有6个数据，那么其中0类3个，占比就是3/6，同理1类。

我们再来计算一个分布比较一下：

信息熵为：
Gini系数为：

很明显，因为第二个分布中，很明显这些数偏向了其中一类，所以 纯度更高 ，相对的信息熵和Gini系数较低。

有了上述的概念，很明显如果我们有一组数据要进行分类，最快的建立决策树的途径就是让其在每一层都让这个样本纯度最大化，那么就要引入信息增益的概念。

所谓增益，就是做了一次决策之后，样本的纯度提升了多少（不纯度降低了多少），也就是比较决策之前的样本不纯度和决策之后的样本不纯度，差越大，效果越好。
让信息熵降低，每一层降低的越快越好。
度量这个信息熵差的方法如下：
其中代表的就是信息熵（或者其他可以度量不纯度的系数）的差，是样本(parent是决策之前，是决策之后)的信息熵（或者其他可以度量不纯度的系数），为特征值的个数，是原样本的记录总数，是与决策后的样本相关联的记录个数。

当选择信息熵作为样本的不纯度度量时，Δ就叫做信息增益 。

我们可以遍历每一个特征，看就哪个特征决策时，产生的信息增益最大，就把他作为当前决策节点，之后在下一层继续这个过程。

举个例子：

如果我们的目标是判断什么情况下，销量会比较高（受天气，周末，促销三个因素影响），根据上述的信息增益求法，我们首先应该找到根据哪个特征来决策，以信息熵为例：

首先肯定是要求，也就是销量这个特征的信息熵：

接下来，就分别看三个特征关于销量的信息熵，先看天气，天气分为好和坏两种，其中天气为好的条件下，销量为高的有11条，低的有6条；天气坏时，销量为高的有7条，销量为低的有10条，并且天气好的总共17条，天气坏的总共17条。

分别计算天气好和天气坏时的信息熵，天气好时：

根据公式，可以知道，N是34，而天气特征有2个值，则k=2，第一个值有17条可以关联到决策后的节点，第二个值也是17条，则能得出计算：

再计算周末这个特征，也只有两个特征值，一个是，一个否，其中是有14条，否有20条；周末为是的中有11条销量是高，3条销量低，以此类推有：

信息增益为：

另外可以得到是否有促销的信息增益为0.127268。

可以看出，以周末为决策，可以得到最大的信息增益，因此根节点就可以用周末这个特征进行分支：

注意再接下来一层的原样本集，不是34个而是周末为“是”和“否”分别计算，为是的是14个，否的是20个。
这样一层一层往下递归，直到判断节点中的样本是否都属于一类，或者都有同一个特征值，此时就不继续往下分了，也就生成了叶子节点。

上述模型的决策树分配如下：

需要注意的是，特征是否出现需要在分支当中看，并不是整体互斥的，周末生成的两个分支，一个需要用促销来决策，一个需要用天气，并不代表再接下来就没有特征可以分了，而是在促销决策层下面可以再分天气，另外一遍天气决策下面可以再分促销。

决策树的模型比较容易解释，看这个树形图就能很容易的说出分类的条件。

我们知道属性有二元属性、标称属性、序数属性和连续属性，其中二元、标称和序数都是类似的，因为是离散的属性，按照上述方式进行信息增益计算即可，而连续属性与这三个不同。

对于连续的属性，为了降低其时间复杂度，我们可以先将属性内部排序，之后取相邻节点的均值作为决策值，依次取每两个相邻的属性值的均值，之后比较他们的不纯度度量。

需要注意的是，连续属性可能在决策树中出现多次，而不是像离散的属性一样在一个分支中出现一次就不会再出现了。

用信息熵或者Gini系数等不纯度度量有一个缺点，就是会倾向于将多分支的属性优先分类——而往往这种属性并不是特征。

例如上面例子中的第一行序号，有34个不同的值，那么信息熵一定很高，但是实际上它并没有任何意义，因此我们需要规避这种情况，如何规避呢，有两种方式：

公式如下：

其中k为划分的总数，如果每个属性值具有相同的记录数，则，划分信息等于，那么如果某个属性产生了大量划分，则划分信息很大，信息增益率低，就能规避这种情况了。

为了防止过拟合现象，往往会对决策树做优化，一般是通过剪枝的方式，剪枝又分为预剪枝和后剪枝。

在构建决策树时，设定各种各样的条件如叶子节点的样本数不大于多少就停止分支，树的最大深度等，让决策树的层级变少以防止过拟合。
也就是在生成决策树之前，设定了决策树的条件。

后剪枝就是在最大决策树生成之后，进行剪枝，按照自底向上的方式进行修剪，修剪的规则是，评估叶子节点和其父节点的代价函数，如果父节点的代价函数比较小，则去掉这个叶子节点。
这里引入的代价函数公式是：
其中代表的是叶子节点中样本个数，代表的是该叶子节点上的不纯度度量，把每个叶子节点的加起来，和父节点的比较，之后进行剪枝即可。

❾ 数据挖掘十大经典算法（1）——朴素贝叶斯(Naive Bayes)

在此推出一个算法系列的科普文章。我们大家在平时埋头工程类工作之余，也可以抽身对一些常见算法进行了解，这不仅可以帮助我们拓宽思路，从另一个维度加深对计算机技术领域的理解，做到触类旁通，同时也可以让我们搞清楚一些既熟悉又陌生的领域——比如数据挖掘、大数据、机器学习——的基本原理，揭开它们的神秘面纱，了解到其实很多看似高深的领域，其实背后依据的基础和原理也并不复杂。而且，掌握各类算法的特点、优劣和适用场景，是真正从事数据挖掘工作的重中之重。只有熟悉算法，才可能对纷繁复杂的现实问题合理建模，达到最佳预期效果。

本系列文章的目的是力求用最干练而生动的讲述方式，为大家讲解由国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 于2006年12月评选出的数据挖掘领域的十大经典算法。它们包括：

本文作为本系列的第一篇，在介绍具体算法之前，先简单为大家铺垫几个数据挖掘领域的常见概念：

在数据挖掘领域，按照算法本身的行为模式和使用目的，主要可以分为分类(classification)，聚类(clustering)和回归(regression)几种，其中：

打几个不恰当的比方 ：

另外，还有一个经常有人问起的问题，就是 数据挖掘 和 机器学习 这两个概念的区别，这里一句话阐明我自己的认识：机器学习是基础，数据挖掘是应用。机器学习研制出各种各样的算法，数据挖掘根据应用场景把这些算法合理运用起来，目的是达到最好的挖掘效果。

当然，以上的简单总结一定不够准确和严谨，更多的是为了方便大家理解打的比方。如果大家有更精当的理解，欢迎补充和交流。

好了，铺垫了这么多，现在终于进入正题！
作为本系列入门的第一篇，先为大家介绍一个容易理解又很有趣的算法—— 朴素贝叶斯 。

先站好队，朴素贝叶斯是一个典型的 有监督的分类算法 。

光从名字也可以想到，要想了解朴素贝叶斯，先要从 贝叶斯定理 说起。
贝叶斯定理是我们高中时代学过的一条概率学基础定理，它描述了条件概率的计算方式。不要怕已经把这些知识还给了体育老师，相信你一看公式就能想起来。

P(A|B)表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：

其中，P(AB)表示A和B同时发生的概率，P(B)标识B事件本身的概率。

贝叶斯定理之所以有用，是因为我们在生活中经常遇到这种情况：我们可以很容易直接得出P(A|B)，P(B|A)则很难直接得出，但我们更关心P(B|A)。

而贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。
下面不加证明地直接给出贝叶斯定理：

有了贝叶斯定理这个基础，下面来看看朴素贝叶斯算法的基本思路。

你看，其思想就是这么的朴素。那么，属于每个分类的概率该怎么计算呢？下面我们先祭出形式化语言！

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

如果你也跟我一样，对形式化语言有严重生理反应，不要怕，直接跳过前面这一坨，我们通过一个鲜活的例子，用人类的语言再解释一遍这个过程。

某个医院早上收了六个门诊病人，如下表。

现在又来了第七个病人，是一个打喷嚏的建筑工人。请问他最有可能患有何种疾病？

本质上，这就是一个典型的分类问题，症状和职业是特征属性， 疾病种类 是目标类别

根据 贝叶斯定理

可得

假定"打喷嚏"和"建筑工人"这两个特征是独立的，因此，上面的等式就变成了

这是可以计算的。

因此，这个打喷嚏的建筑工人，有66%的概率是得了感冒。同理，可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率，就可以知道他最可能得什么病。

接下来，我们再举一个朴素贝叶斯算法在实际中经常被使用的场景的例子—— 文本分类器 ，通常会用来识别垃圾邮件。
首先，我们可以把一封邮件的内容抽象为由若干关键词组成的集合，这样是否包含每种关键词就成了一封邮件的特征值，而目标类别就是 属于垃圾邮件 或 不属于垃圾邮件

假设每个关键词在一封邮件里出现与否的概率相互之间是独立的，那么只要我们有若干已经标记为垃圾邮件和非垃圾邮件的样本作为训练集，那么就可以得出，在全部垃圾邮件（记为Trash）出现某个关键词Wi的概率，即 P(Wi|Trash)

而我们最重要回答的问题是，给定一封邮件内容M，它属于垃圾邮件的概率是多大，即 P(Trash|M)

根据贝叶斯定理，有

我们先来看分子：
P(M|Trash) 可以理解为在垃圾邮件这个范畴中遇见邮件M的概率，而一封邮件M是由若干单词Wi独立汇聚组成的，只要我们所掌握的单词样本足够多，因此就可以得到

这些值我们之前已经可以得到了。

再来看分子里的另一部分 P(Trash) ，这个值也就是垃圾邮件的总体概率，这个值显然很容易得到，用训练集中垃圾邮件数除以总数即可。

而对于分母来说，我们虽然也可以去计算它，但实际上已经没有必要了，因为我们要比较的 P(Trash|M) 和 P(non-Trash|M) 的分母都是一样的，因此只需要比较分子大小即可。

这样一来，我们就可以通过简单的计算，比较邮件M属于垃圾还是非垃圾二者谁的概率更大了。

朴素贝叶斯的英文叫做 Naive Bayes ，直译过来其实是 天真的贝叶斯 ，那么他到底天真在哪了呢？

这主要是因为朴素贝叶斯的基本假设是所有特征值之间都是相互独立的，这才使得概率直接相乘这种简单计算方式得以实现。然而在现实生活中，各个特征值之间往往存在一些关联，比如上面的例子，一篇文章中不同单词之间一定是有关联的，比如有些词总是容易同时出现。

因此，在经典朴素贝叶斯的基础上，还有更为灵活的建模方式—— 贝叶斯网络（Bayesian Belief Networks, BBN） ，可以单独指定特征值之间的是否独立。这里就不展开了，有兴趣的同学们可以做进一步了解。

最后我们来对这个经典算法做个点评：

优点：

缺点：

好了，对于 朴素贝叶斯 的介绍就到这里，不知道各位看完之后是否会对数据挖掘这个领域产生了一点兴趣了呢？

导航:首页 > 源码编译 > 数据挖掘分类算法例子

数据挖掘分类算法例子

与数据挖掘分类算法例子相关的资料