数据关联分析经典算法_带你了解数据挖掘中的经典算法

‘壹’ 带你了解数据挖掘中的经典算法

数据挖掘的算法有很多，而不同的算法有着不同的优点，同时也发挥着不同的作用。可以这么说，算法在数据挖掘中做出了极大的贡献，如果我们要了解数据挖掘的话就不得不了解这些算法，下面我们就继续给大家介绍一下有关数据挖掘的算法知识。
1.The Apriori algorithm，
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。这个算法是比较复杂的，但也是十分实用的。
2.最大期望算法
在统计计算中，最大期望算法是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量。最大期望经常用在机器学习和计算机视觉的数据集聚领域。而最大期望算法在数据挖掘以及统计中都是十分常见的。
3.PageRank算法
PageRank是Google算法的重要内容。PageRank里的page不是指网页，而是创始人的名字，即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”，这个标准就是衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。
3.AdaBoost算法
Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器，然后把这些弱分类器集合起来，构成一个更强的最终分类器。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。这种算法给数据挖掘工作解决了不少的问题。
数据挖掘算法有很多，这篇文章中我们给大家介绍的算法都是十分经典的算法，相信大家一定可以从中得到有价值的信息。需要告诉大家的是，我们在进行数据挖掘工作之前一定要事先掌握好数据挖掘需呀掌握的各类算法，这样我们才能在工总中得心应手，如果基础不牢固，那么我们迟早是会被淘汰的。职场如战场，我们一定要全力以赴。

‘贰’ 数据挖掘的十大经典算法，总算是讲清楚了，想提升自己的赶快收藏

一个优秀的数据分析师，除了要掌握基本的统计学、数据分析思维、数据分析工具之外，还需要掌握基本的数据挖掘思想，帮助我们挖掘出有价值的数据，这也是数据分析专家和一般数据分析师的差距所在。

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。今天主要分享其中10种经典算法，内容较干，建议收藏备用学习。

1. C4.5

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2) 在树构造过程中进行剪枝；

3) 能够完成对连续属性的离散化处理；

4) 能够对不完整数据进行处理。

C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效（相对的CART算法只需要扫描两次数据集，以下仅为决策树优缺点）。

2. The k-means algorithm 即K-Means算法

k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

3. Support vector machines

支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。

4. The Apriori algorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

5. 最大期望(EM)算法

在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。

6. PageRank

PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。

PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。

7. AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

8. kNN: k-nearest neighbor classification

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

9. Naive Bayes

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。

同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。

10. CART: 分类与回归树

CART, Classification and Regression Trees。在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法（二元切分法）；第二个想法是用验证数据进行剪枝（预剪枝、后剪枝）。在回归树的基础上的模型树构建难度可能增加了，但同时其分类效果也有提升。

参考书籍：《机器学习实战》

‘叁’ 数据挖掘算法有哪些

以下主要是常见的10种数据挖掘的算法，数据挖掘分为：分类（Logistic回归模型、神经网络、支持向量机等）、关联分析、聚类分析、孤立点分析。每一大类下都有好几种算法，这个具体可以参考数据挖掘概论这本书（英文最新版）

‘肆’ 数据挖掘十大经典算法（1）——朴素贝叶斯(Naive Bayes)

在此推出一个算法系列的科普文章。我们大家在平时埋头工程类工作之余，也可以抽身对一些常见算法进行了解，这不仅可以帮助我们拓宽思路，从另一个维度加深对计算机技术领域的理解，做到触类旁通，同时也可以让我们搞清楚一些既熟悉又陌生的领域——比如数据挖掘、大数据、机器学习——的基本原理，揭开它们的神秘面纱，了解到其实很多看似高深的领域，其实背后依据的基础和原理也并不复杂。而且，掌握各类算法的特点、优劣和适用场景，是真正从事数据挖掘工作的重中之重。只有熟悉算法，才可能对纷繁复杂的现实问题合理建模，达到最佳预期效果。

本系列文章的目的是力求用最干练而生动的讲述方式，为大家讲解由国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 于2006年12月评选出的数据挖掘领域的十大经典算法。它们包括：

本文作为本系列的第一篇，在介绍具体算法之前，先简单为大家铺垫几个数据挖掘领域的常见概念：

在数据挖掘领域，按照算法本身的行为模式和使用目的，主要可以分为分类(classification)，聚类(clustering)和回归(regression)几种，其中：

打几个不恰当的比方 ：

另外，还有一个经常有人问起的问题，就是 数据挖掘 和 机器学习 这两个概念的区别，这里一句话阐明我自己的认识：机器学习是基础，数据挖掘是应用。机器学习研制出各种各样的算法，数据挖掘根据应用场景把这些算法合理运用起来，目的是达到最好的挖掘效果。

当然，以上的简单总结一定不够准确和严谨，更多的是为了方便大家理解打的比方。如果大家有更精当的理解，欢迎补充和交流。

好了，铺垫了这么多，现在终于进入正题！
作为本系列入门的第一篇，先为大家介绍一个容易理解又很有趣的算法—— 朴素贝叶斯 。

先站好队，朴素贝叶斯是一个典型的 有监督的分类算法 。

光从名字也可以想到，要想了解朴素贝叶斯，先要从 贝叶斯定理 说起。
贝叶斯定理是我们高中时代学过的一条概率学基础定理，它描述了条件概率的计算方式。不要怕已经把这些知识还给了体育老师，相信你一看公式就能想起来。

P(A|B)表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：

其中，P(AB)表示A和B同时发生的概率，P(B)标识B事件本身的概率。

贝叶斯定理之所以有用，是因为我们在生活中经常遇到这种情况：我们可以很容易直接得出P(A|B)，P(B|A)则很难直接得出，但我们更关心P(B|A)。

而贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。
下面不加证明地直接给出贝叶斯定理：

有了贝叶斯定理这个基础，下面来看看朴素贝叶斯算法的基本思路。

你看，其思想就是这么的朴素。那么，属于每个分类的概率该怎么计算呢？下面我们先祭出形式化语言！

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

如果你也跟我一样，对形式化语言有严重生理反应，不要怕，直接跳过前面这一坨，我们通过一个鲜活的例子，用人类的语言再解释一遍这个过程。

某个医院早上收了六个门诊病人，如下表。

现在又来了第七个病人，是一个打喷嚏的建筑工人。请问他最有可能患有何种疾病？

本质上，这就是一个典型的分类问题，症状和职业是特征属性， 疾病种类 是目标类别

根据 贝叶斯定理

可得

假定"打喷嚏"和"建筑工人"这两个特征是独立的，因此，上面的等式就变成了

这是可以计算的。

因此，这个打喷嚏的建筑工人，有66%的概率是得了感冒。同理，可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率，就可以知道他最可能得什么病。

接下来，我们再举一个朴素贝叶斯算法在实际中经常被使用的场景的例子—— 文本分类器 ，通常会用来识别垃圾邮件。
首先，我们可以把一封邮件的内容抽象为由若干关键词组成的集合，这样是否包含每种关键词就成了一封邮件的特征值，而目标类别就是 属于垃圾邮件 或 不属于垃圾邮件

假设每个关键词在一封邮件里出现与否的概率相互之间是独立的，那么只要我们有若干已经标记为垃圾邮件和非垃圾邮件的样本作为训练集，那么就可以得出，在全部垃圾邮件（记为Trash）出现某个关键词Wi的概率，即 P(Wi|Trash)

而我们最重要回答的问题是，给定一封邮件内容M，它属于垃圾邮件的概率是多大，即 P(Trash|M)

根据贝叶斯定理，有

我们先来看分子：
P(M|Trash) 可以理解为在垃圾邮件这个范畴中遇见邮件M的概率，而一封邮件M是由若干单词Wi独立汇聚组成的，只要我们所掌握的单词样本足够多，因此就可以得到

这些值我们之前已经可以得到了。

再来看分子里的另一部分 P(Trash) ，这个值也就是垃圾邮件的总体概率，这个值显然很容易得到，用训练集中垃圾邮件数除以总数即可。

而对于分母来说，我们虽然也可以去计算它，但实际上已经没有必要了，因为我们要比较的 P(Trash|M) 和 P(non-Trash|M) 的分母都是一样的，因此只需要比较分子大小即可。

这样一来，我们就可以通过简单的计算，比较邮件M属于垃圾还是非垃圾二者谁的概率更大了。

朴素贝叶斯的英文叫做 Naive Bayes ，直译过来其实是 天真的贝叶斯 ，那么他到底天真在哪了呢？

这主要是因为朴素贝叶斯的基本假设是所有特征值之间都是相互独立的，这才使得概率直接相乘这种简单计算方式得以实现。然而在现实生活中，各个特征值之间往往存在一些关联，比如上面的例子，一篇文章中不同单词之间一定是有关联的，比如有些词总是容易同时出现。

因此，在经典朴素贝叶斯的基础上，还有更为灵活的建模方式—— 贝叶斯网络（Bayesian Belief Networks, BBN） ，可以单独指定特征值之间的是否独立。这里就不展开了，有兴趣的同学们可以做进一步了解。

最后我们来对这个经典算法做个点评：

优点：

缺点：

好了，对于 朴素贝叶斯 的介绍就到这里，不知道各位看完之后是否会对数据挖掘这个领域产生了一点兴趣了呢？

‘伍’ 大数据挖掘的算法有哪些

大数据挖掘的算法：
1.朴素贝叶斯，超级简单，就像做一些数数的工作。如果条件独立假设成立的话，NB将比鉴别模型收敛的更快，所以你只需要少量的训练数据。即使条件独立假设不成立，NB在实际中仍然表现出惊人的好。
2. Logistic回归，LR有很多方法来对模型正则化。比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。与决策树与支持向量机不同，NB有很好的概率解释，且很容易利用新的训练数据来更新模型。如果你想要一些概率信息或者希望将来有更多数据时能方便的更新改进模型，LR是值得使用的。
3.决策树，DT容易理解与解释。DT是非参数的，所以你不需要担心野点（或离群点）和数据是否线性可分的问题，DT的主要缺点是容易过拟合，这也正是随机森林等集成学习算法被提出来的原因。
4.支持向量机，很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。

如果想要或许更多更详细的讯息，建议您去参加CDA数据分析课程。大数据分析师现在有专业的国际认证证书了，CDA，即“CDA 数据分析师”，是在数字经济大背景和人工智能时代趋势下，面向全行业的专业权威国际资格认证，旨在提升全民数字技能，助力企业数字化转型，推动行业数字化发展。 “CDA 数据分析师”具体指在互联网、金融、零售、咨询、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才。点击预约免费试听课。

‘陆’ 数据挖掘算法有哪些

统计和可视化要想建立一个好的预言模型，你必须了解自己的数据。最基本的方法是计算各种统计变量（平均值、方差等）和察看数据的分布情况。你也可以用数据透视表察看多维数据。数据的种类可分为连续的，有一个用数字表示的值（比如销售量）或离散的，分成一个个的类别（如红、绿、蓝）。离散数据可以进一步分为可排序的，数据间可以比较大小（如，高、中、低）和标称的，不可排序（如邮政编码）。图形和可视化工具在数据准备阶段尤其重要，它能让你快速直观的分析数据，而不是给你枯燥乏味的文本和数字。它不仅让你看到整个森林，还允许你拉近每一棵树来察看细节。在图形模式下人们很容易找到数据中可能存在的模式、关系、异常等，直接看数字则很难。可视化工具的问题是模型可能有很多维或变量，但是我们只能在2维的屏幕或纸上展示它。比如，我们可能要看的是信用风险与年龄、性别、婚姻状况、参加工作时间的关系。因此，可视化工具必须用比较巧妙的方法在两维空间内展示n维空间的数据。虽然目前有了一些这样的工具，但它们都要用户“训练”过他们的眼睛后才能理解图中画的到底是什么东西。对于眼睛有色盲或空间感不强的人，在使用这些工具时可能会遇到困难。聚集（分群）聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显，而同一个群之间的数据尽量相似。与分类不同（见后面的预测型数据挖掘），在开始聚集之前你不知道要把数据分成几组，也不知道怎么分（依照哪几个变量）。因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来说可能并不好，这时你需要删除或增加变量以影响分群的方式，经过几次反复之后才能最终得到一个理想的结果。神经元网络和K-均值是比较常用的聚集算法。不要把聚集与分类混淆起来。在分类之前，你已经知道要把数据分成哪几类，每个类的性质是什么，聚集则恰恰相反。关联分析关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所买不同商品的相关性。序列模式与此类似，他寻找的是事件之间时间上的相关性，如对股票涨跌的分析。关联规则可记为A==>B，A称为前提和左部（LHS），B称为后续或右部（RHS）。如关联规则“买锤子的人也会买钉子”，左部是“买锤子”，右部是“买钉子”。要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。某一特定关联（“锤子和钉子”）在数据库中出现的频率称为支持度。比如在总共1000个事务中有15个事务同时包含了“锤子和钉子”，则此关联的支持度为1.5%。非常低的支持度（比如1百万个事务中只有一个）可能意味着此关联不是很重要，或出现了错误数据（如，“男性和怀孕”）。要找到有意义的规则，我们还要考察规则中项及其组合出现的相对频率。当已有A时，B发生的概率是多少？也即概率论中的条件概率。回到我们的例子，也就是问“当一个人已经买了锤子，那他有多大的可能也会买钉子？”这个条件概率在数据挖掘中也称为可信度，计算方法是求百分比：（A与B同时出现的频率）/（A出现的频率）。让我们用一个例子更详细的解释这些概念：总交易笔数（事务数）：1,000包含“锤子”：50包含“钉子”：80包含“钳子”：20包含“锤子”和“钉子”：15包含“钳子”和“钉子”：10包含“锤子”和“钳子”：10包含“锤子”、“钳子”和“钉子”：5 则可以计算出： “锤子和钉子”的支持度=1.5%（15/1,000）“锤子、钉子和钳子”的支持度=0.5%（5/1,000）“锤子==>钉子”的可信度=30%（15/50）“钉子==>锤子”的可信度=19%（15/80）“锤子和钉子==>钳子”的可信度=33%（5/15）“钳子==>锤子和钉子”的可信度=25%（5/20）

‘柒’ 数据挖掘的经典算法

1. C4.5：是机器学习算法中的一种分类决策树算法，其核心算法是ID3算法。
2. K-means算法：是一种聚类算法。
3.SVM：一种监督式学习的方法，广泛运用于统计分类以及回归分析中
4.Apriori ：是一种最有影响的挖掘布尔关联规则频繁项集的算法。
5.EM：最大期望值法。
6.pagerank：是google算法的重要内容。
7. Adaboost:是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来，构成一个更强的最终分类器。
8.KNN:是一个理论上比较成熟的的方法，也是最简单的机器学习方法之一。
9.Naive Bayes：在众多分类方法中，应用最广泛的有决策树模型和朴素贝叶斯（Naive Bayes）
10.Cart：分类与回归树，在分类树下面有两个关键的思想，第一个是关于递归地划分自变量空间的想法，第二个是用验证数据进行减枝。
关联规则规则定义
在描述有关关联规则的一些细节之前，我们先来看一个有趣的故事：尿布与啤酒的故事。
在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是：跟尿布一起购买最多的商品竟是啤酒！经过大量实际调查和分析，揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。

‘捌’ 关联分析的关联分析的方法

Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法，也是最着名的关联规则挖掘算法之一。Apriori算法就是根据有关频繁项集特性的先验知识而命名的。它使用一种称作逐层搜索的迭代方法，k—项集用于探索（k+1）—项集。首先，找出频繁1—项集的集合．记做L1，L1用于找出频繁2—项集的集合L2，再用于找出L3，如此下去，直到不能找到频繁k—项集。找每个Lk需要扫描一次数据库。
为提高按层次搜索并产生相应频繁项集的处理效率，Apriori算法利用了一个重要性质，并应用Apriori性质来帮助有效缩小频繁项集的搜索空间。
Apriori性质：一个频繁项集的任一子集也应该是频繁项集。证明根据定义，若一个项集I不满足最小支持度阈值min_sup，则I不是频繁的，即P（I）<min_sup。若增加一个项A到项集I中，则结果新项集（I∪A）也不是频繁的，在整个事务数据库中所出现的次数也不可能多于原项集I出现的次数，因此P（I∪A）<min_sup，即（I∪A）也不是频繁的。这样就可以根据逆反公理很容易地确定Apriori性质成立。
针对Apriori算法的不足，对其进行优化：
1）基于划分的方法。该算法先把数据库从逻辑上分成几个互不相交的块，每次单独考虑一个分块并对它生成所有的频繁项集，然后把产生的频繁项集合并，用来生成所有可能的频繁项集，最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存，每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频繁项集至少在某一个分块中是频繁项集保证的。
上面所讨论的算法是可以高度并行的。可以把每一分块分别分配给某一个处理器生成频繁项集。产生频繁项集的每一个循环结束后．处理器之间进行通信来产生全局的候选是一项集。通常这里的通信过程是算法执行时间的主要瓶颈。而另一方面，每个独立的处理器生成频繁项集的时间也是一个瓶颈。其他的方法还有在多处理器之间共享一个杂凑树来产生频繁项集，更多关于生成频繁项集的并行化方法可以在其中找到。
2）基于Hash的方法。Park等人提出了一个高效地产生频繁项集的基于杂凑（Hash）的算法。通过实验可以发现，寻找频繁项集的主要计算是在生成频繁2—项集Lk上，Park等就是利用这个性质引入杂凑技术来改进产生频繁2—项集的方法。
3）基于采样的方法。基于前一遍扫描得到的信息，对它详细地做组合分析，可以得到一个改进的算法，其基本思想是：先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则，然后对数据库的剩余部分验证这个结果。这个算法相当简单并显着地减少了FO代价，但是一个很大的缺点就是产生的结果不精确，即存在所谓的数据扭曲（Dataskew）。分布在同一页面上的数据时常是高度相关的，不能表示整个数据库中模式的分布，由此而导致的是采样5%的交易数据所花费的代价同扫描一遍数据库相近。
4）减少交易个数。减少用于未来扫描事务集的大小，基本原理就是当一个事务不包含长度为志的大项集时，则必然不包含长度为走k+1的大项集。从而可以将这些事务删除，在下一遍扫描中就可以减少要进行扫描的事务集的个数。这就是AprioriTid的基本思想。由于Apriori方法的固有缺陷．即使进行了优化，其效率也仍然不能令人满意。2000年，Han Jiawei等人提出了基于频繁模式树（Frequent Pattern Tree，简称为FP-tree）的发现频繁模式的算法FP-growth。在FP-growth算法中，通过两次扫描事务数据库，把每个事务所包含的频繁项目按其支持度降序压缩存储到FP—tree中。在以后发现频繁模式的过程中，不需要再扫描事务数据库，而仅在FP-Tree中进行查找即可，并通过递归调用FP-growth的方法来直接产生频繁模式，因此在整个发现过程中也不需产生候选模式。该算法克服了Apriori算法中存在的问颢．在执行效率上也明显好于Apriori算法。

导航:首页 > 源码编译 > 数据关联分析经典算法

数据关联分析经典算法

与数据关联分析经典算法相关的资料