文本的关联规则算法_关联规则算法的关联规则的定义

⑴ 关联算法

关联, 指的是关联分析, 这里引用网络的定义.

通过关联分析, 可以挖掘出"由于某些事件的发生而引起另外一些事件的发生"之类的规则, 比如说"面包=>牛奶", 其中面包被称为规则的前项, 而牛奶则被称为规则的后项.

常用于关联分析的算法有Apriori算法, FP-growth算法, Eclat算法, 灰色关联法等, 下面将着重介绍Apriori算法.

在介绍Apriori算法之前, 我们先来了解几个概念:
1.事务: 一条交易记录称为一个事务
2.项: 交易中的每一个物品称为一个项
3.项集: 包含0个或多个项的集合
4.支持度计数: 项集在所有事务中出现的次数.
5.支持度: 支持度计数除于总的事务数.
6.频繁项集: 支持度大于等于某个阀值的项集.

关联规则的挖掘通常分为两步: 第一步, 找出所有的频繁项集; 第二步, 由频繁项集产没判答生强关联规则. 而Apriori算法则是挖掘频繁项集的基本算法.

可以看到以上每个过程均需要扫描一次数据, 为了提高频繁项集逐层迭代产生的效率, 需要利用一条重要性质, 其称为先验性质:

当然, 非频繁项集的所有超集也一定是非频繁的.

将先验性质应用到Apriori算法中就是将之枯慧前的过程分为两大部分, 连接步和剪枝步.
连接步: 连接步的目的是产生候选项集.
剪枝步: 应用先验性质对候选项集进行筛选, 将不满足先验性质的候选项集剔除, 再进而根据最小支持度找出频繁项集, 这样可以有效缩短计算量.

关联分析的目标是找出强关联规则, 因此这里的关联规则是指强关联规则, 我们把满足最小支持度和最小置信度的规则称为强关联规则.
对于规则A=>冲敏B, 置信度的计算公式就是项集{A, B}的支持度计数除于项集{A}的支持度计数.

优点: 简单, 易理解, 对数据要求低
缺点: 容易产生过多的候选项集, I/O负载大.

⑵ 关联规则挖掘算法的介绍

学号：17020110019 姓名：高少魁

【嵌牛导读】关联规则挖掘算法是数据挖掘中的一种常用算法，用于发现隐藏在大型数据集中令人感兴趣的频繁出现的模式、关联和相关性。这里将对该算法进行简单的介绍，之后通过Apriori算法作为实例演示算法执行结果。

【嵌牛鼻子】数据挖掘关联规则挖掘 python

【嵌牛正文】

一、算法原理

1、基本概念

关联规则用于发现隐藏在大型数据集中令人感兴趣的频繁出现的模式、关联和相关性。而 Apriori算法则是经典的挖掘频繁项集的关联规则算法，它通过层层迭代来寻找频繁项集，最后输出关联规则：首先扫描数据集，得到 1-频繁项集，记为 L1，通过合并 L1得到 2-频繁项集 L2，再通过 L2找到 L3，如此层层迭代，直到找不到频繁项集为止。

在Apriori算法中，定义了如下几个概念：

⚫ 项与项集：设 I={i1,i2,…,im}是由 m个不同项构成的集合，其中的每个 ik(k=1,2,…,m)被称为一个项 (Item)，项的集合 I被称为项集和，即项集。在实验中，每一条购物记录可以被看做一个项集，用户购买的某个商品即为一个项。

⚫ 事务与事务集：神乎事务 T是项集 I的一个子集，而事务的全体被称为事务集。

⚫ 关联规则：形如 A=>B的表达式，其中， A和 B都属于项集 I，且 A与 B不相交。

⚫ 支持度：定义如下 support(A=>B) = P(A B)，即 A和 B所含的项在事务集中同时出现的概率。

⚫ 置信度：定义如下 confidence(A⇒B)=support(A⇒B)/support(A)=P(A B)/P(A)=P(B|A)，即如果事务包含 A，则事务中同时出现 B的概率。

⚫ 频繁项集：如果项集 I的支持度满足事先定义好的最小支持度阈慧液值（即 I的出现频度大于相应的最小出现频度阈值），则 I是频繁项集。

⚫ 强关联规则：满足最小支持度和最小置信度的关联规则，即待挖掘的关联规则。

根据以上概念，要实现关联规则的挖掘，首先要找到所有的频繁项集，之后找出强关联规则（即通过多次扫描数据集，找出频繁集，然后产生关联规则）。

2、挖掘频繁项集

在该步骤中有两个较为重要的部分：连接和修剪。连接步骤即使用k-1频繁项集，通过连接得到 k-候选项集，并且只有相差一个项的项集才能进行连接，如 {A,B}和 {B,C}连接成为 {A,B,C}。修剪步骤基于一个性质：一个 k-项集，如果它的一个 k-1项集（子集）不是频繁的，那么它本身也不可能是频繁的。因此可以基于这个性质，通过判断先验性质来对候选集进行修剪。

3、产生关联规则

经过连接和修剪之后，即找到了所有的频繁项集，此时可以在此基础上产生关联规则，步骤如下

（1）对于每个频繁项集 l，产生 l的所有非空子集（这些非空子集一定是频繁项集）；

（2）对于 l的每一个非空子集 x，计算 confidence(x => (l-x))，如果 confidence(x => (l-x)) confmin，那么规则 x => (l-x)”成立。

二、算法设计

1、数据集

通过语句 import xlrd导入相关的库来进行数据的读取。数据内容为十条购物记录，每条购物记录有若干个商品，表示某个顾客的购买记录，如图

对于数据加载部分使用了 xlrd库中的函数 open_workbook来打开一个表格文件，使用sheet_by_index函数得到一个工作表， row_values函数即可读取表格中的内容。由于每个购物记录的商品数不一定相同，导致读取的内容含有空格 (’ ’)，因此对数据进行删减以得到紧凑的数据，最终读取数据的结果以列表的游碧悉形式返回。

2、连接

对于连接部分，主要目标是根据已有的k-1频繁项集生成 k-候选频繁项集。算法步骤为：首先将项集中的项按照字典顺序排序，之后将 k-1项集中两个项作比较，如果两个项集中前 k-2个项是相同的，则可以通过或运算（|）将它们连接起来。

3、修剪

修剪操作主要使用一个判断函数，通过传入连接操作后的项集和之前的k-1频繁项集，对新的项集中的每一个项的补集进行判断，如果该补集不是 k-1频繁项集的子集，则证明新的项集不满足先验性质，即一个频繁项集的所有非空子集一定是频繁的，否则就满足先验形式。返回布尔类型的参数来供调用它的函数作判断。

经过连接和修剪步骤之后，项基要成为频繁项集还必须满足最小支持度的条件，笔者设计了generateFrequentItems函数来对连接、修剪后产生的 k-候选项集进行判断，通过遍历数据集，计算其支持度，满足最小支持度的项集即是一个频繁项集，可将其返回。

以上，经过不断的遍历、连接、修剪、删除，可将得到的所有结果以列表形式返回。笔者还设计了字典类型的变量 support_data，以得到某个频繁项集及其支持度。

4、挖掘关联规则

generateRules函数用来挖掘关联规则，通过传入最小置信度、频繁项集及其支持度来生成规则。根据定理：对于频繁项集 l的每一个非空子集 x，计算 confidence(x => (l-x))，如果 confidence(x => (l-x)) confmin，那么规则 x => (l-x)”成立，因此，该函数重点在扫描频繁项集，得到每一个子集，并计算置信度，当置信度满足条件（即大于等于最小置信度）时，生成一条规则。在函数中，使用了元组来表示一条规则，元组中包含 x、 l-x以及其置信度，最后返回生成的所有规则的列表。

三、算法执行结果

设置最大频繁项集数k为 3，最小支持度为 0.2，最小置信度为 0.8 使用 pycharm运行程序，得到以下结果：

由图中结果可以看出，对于频繁 1-项集，有五个满足的项集，频繁 2-项集有 6个，频繁 3-项集有 2个，它们都满足支持度大于或等于最小支持度 0.2。根据频繁项集，程序得到的关联规则有三条，即 {面包 }=>{牛奶 }，，{鸡蛋 }=>{牛奶 }，，{面包，苹果 }=>{牛奶其中，这些规则的置信度都是 1.0，满足大于或等于最小置信度 0.8的条件。

四、程序源码

⑶ 关联规则算法的关联规则的定义

所谓关联，反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候，可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance，第二个是关联性association，两者都可以用来描述事件之间的关联程度。
设I={i1,i2…,im}为所有项目的集合，设A是一个由项目构成的集合，称为项集。事务T是一个项目子集,每一个事务具有唯一的事务标识Tid。事务T包含项集A，当且仅当AT。如果项集A中包含k个项目，则称其为k项集。D为事务数据库，项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度（support）。如果项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集（或大项集）。
关联规则就是形如XY的逻辑蕴含关系，其中XI，YI且XY=Φ，X称作规则的前件，Y是结果，对于关联规则XY，存在支持度和信任度。
支持度是指规则中所出现模式的频率，如果事务数据库有s%的事务包含XY，则称关联规则XY在D中的支持度为s%，实际上，可以表示为概率P（XY），即support（XY）= P（XY）。信任度是指蕴含的强度，即事务D中c%的包含X的交易同时包含XY。若X的支持度是support(x)，规则的信任度为即为：support(XY)/support(X)，这是一个条件概率P（Y|X），即confidence（XY）= P（Y|X）。

⑷ apriori算法是什么

Apriori算法是第一个关联规则挖掘算法，也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接（类矩阵运算）与剪枝（去掉那些没必要的中间结果）组成。该算法中项集的概念即为项的集合。包含K个项的集合为k项集。项集出现的频率是包含项集的事务数，称为项集的频率。如果某项集满足最小支持度，则称它为频繁项集。

算法应用

随着高校贫困生人数的不断增加，学校管理部门资助工作难度也越加增大。针对这一现象，提出一种基于数据挖掘算法的解决方法。将关联规则的Apriori算法应用到贫困助学体系中，并且针对经典Apriori挖掘算法存在的不足进行改进，先将事务数据库映射为一个布尔矩阵，用一种逐层递增的思想来动态的分配内存进行存储，再利用向量求＂与＂运算，寻找频繁项集。

导航:首页 > 源码编译 > 文本的关联规则算法

文本的关联规则算法

与文本的关联规则算法相关的资料