购物篮分析算法_关联规则算法(The Apriori algorithm)

❶ 关联规则算法(The Apriori algorithm)

关联规则的目的在于在一个数据集中找出项之间的关系，也称之为购物篮分析 (market basket analysis)。例如，购买鞋的顾客，有10%的可能也会买袜子，60%的买面包的顾客，也会买牛奶。这其中最有名的例子就是"尿布和啤酒"的故事了。

本篇的Apriori算法主要是基于频繁集的关联分析。其主要目的就是为了寻找强关联规则。

要理解频繁集、强关联规则，要先借助下面的一个情境，来介绍几个重要概念。

下表是一些购买记录：

将购买记录整理，可得到下表，横栏和纵栏的数字表示同时购买这两种商品的交易条数。如购买有Orange的交易数为4，而同时购买Orange和Coke的交易数为2。

置信度，表示这条规则有多大程度上值得可信。

设条件的项的集合为A,结果的集合为B。置信度计算在A中，同时也含有B的概率。即Confidence(A->B)=P(B|A)。例如计算"如果Orange则Coke"的置信度。由于在含有Orange的4条交易中，仅有2条交易含有Coke。其置信度为0.5。

支持度，计算在所有的交易集中，既有A又有B的概率。

例如在5条记录中，既有Orange又有Coke的记录有2条。则此条规则的支持度为2/5=0.4。现在这条规则可表述为，如果一个顾客购买了Orange,则有50%的可能购买Coke。而这样的情况（即买了Orange会再买Coke）会有40%的可能发生。

支持度大于预先定好的最小支持度的项集。

关联规则：令项集I={i1,i2,...in}，且有一个数据集合D，它其中的每一条记录T，都是I的子集。那么关联规则是形如A->B的表达式，A、B均为I的子集，且A与B的交集为空。这条关联规则的支持度：support = P(A并B)。这条关联规则的置信度：confidence = support(A并B）/suport(A)。

强关联规则：如果存在一条关联规则，它的支持度和置信度都大于预先定义好的最小支持度与置信度，我们就称它为强关联规则。

下面用一个例子说明算法的过程：

项目集合 I={1，2，3，4，5};

事务集 T：

设定最小支持度（minsup）=3/7，最小置信度（misconf）=5/7。

假设：n-频繁项目集为包含n个元素的项目集，例如1-频繁项目集为包含1个元素的项目集

则这里，1-频繁项目集有：{1}，{2}，{3}，{4}，{5}

生成2-频繁项目集的过程如下：

首先列出所有可能的2-项目集，如下：

{1，2}，{1，3}，{1，4}，{1，5}

{2，3}，{2，4}，{2，5}

{3，4}，{3，5}

{4，5}

计算它们的支持度，发现只有{1，2}，{1，3}，{1，4}，{2，3}，{2，4}，{2，5}的支持度满足要求，因此求得2-频繁项目集：

{1，2}，{1，3}，{1，4}，{2，3}，{2，4}

生成3-频繁项目集：

对于现有的2-频繁项目集，两两取并集，并确保第三个二元组也在2-频繁项目集内，把得到的所有3-项目集分别计算支持度，剔除不满足最小支持度的项目集；

例如，

{1，2}，{1，3}的并集得到{1，2，3}；

{1，2}，{1，4}的并集得到{1，2，4}；

{1，3}，{1，4}的并集得到{1，3，4}；

{2，3}，{2，4}的并集得到{2，3，4}；

但是由于{1，3，4}的子集{3，4}不在2-频繁项目集中，所以需要把{1，3，4}剔除掉。{2，3，4} 同理剔除。

然后再来计算{1，2，3}和{1，2，4}的支持度，发现{1，2，3}的支持度为3/7 ，{1，2，4}的支持度为2/7，所以需要把{1，2，4}剔除。因此得到3-频繁项目集：{1，2，3}。

重复上面步骤继续寻找n-频繁项目集，直到不能发现更大的频繁项目集。所以，到此，频繁项目集生成过程结束。

这里只说明3-频繁项目集生成关联规则的过程，即以集合{1，2，3}为例：

回顾事物集，先生成1-后件的关联规则：

（1，2）—>3，置信度=3/4（出现（1，2）的记录共4条，其中有3条包含3，所以3/4）；

（1，3）—>2，置信度=3/5；

（2，3）—>1，置信度=3/3；

第二条置信度<5/7，未达到最小置信度，所以剔除掉。所以对于3-频繁项目集生成的强关联规则为：（1，2）—>3和（2，3）—>1。

这表示，如果1、2出现了，则极有可能出现3；2、3出现，则极有可能有1。

http://www.cnblogs.com/junyuhuang/p/5572364.html

❷ Python购物篮数据（关联分析）

pip install mlxtend

由于已经是csv格式，所以直接输入：

每一行：一个购物篮

每一列：购物篮中的商品

先看看pd读的对不对：

然后按行打印：

再将这些存在一个数组中：

1、什么是独热码

独热码，在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制，更加详细参加 one_hot code（维基网络）。在机器学习中对于离散型的分类型的数据，需要对其进行数字化比如说性别这一属性，只能有男性或者女性或者其他这三种值，如何对这三个值进行数字化表达？一种简单的方式就是男性为0，女性为1，其他为2，这样做有什么问题？

使用上面简单的序列对分类值进行表示后，进行模型训练时可能会产生一个问题就是特征的因为数字值得不同影响模型的训练效果，在模型训练的过程中不同的值使得同一特征在样本中的权重可能发生变化，假如直接编码成1000，是不是比编码成1对模型的的影响更大。为了解决上述的问题，使训练过程中不受到因为分类值表示的问题对模型产生的负面影响，引入独热码对分类型的特征进行独热码编码。

可以这样理解，对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征（如成绩这个特征有好，中，差变成one-hot就是100, 010, 001）。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的。

这样做的好处主要有：

（1）解决了分类器不好处理属性数据的问题

（2）在一定程度上也起到了扩充特征的作用

M

以下为我摘取的别人的，贴上原文链接https://blog.csdn.net/hellozhxy/article/details/80600845

着名的啤酒与尿布, 这是典型的购物篮问题, 在数据挖掘界叫做频繁项集(Frequent Itemsets).

note: 数据类型写法按照Python的格式.

一. 目标与定义

1. 问题背景

超市中购物清单中总是有一些项目是被消费者一同购买的. 如果我们能够发现这些关联规则 (association rules), 并合理地加以利用, 我们就能取得一定成果. 比如我们发现热狗和芥末存在这种关系, 我们对热狗降价促销, 而对芥末适当提价, 结果能显着提高超市的销售额.

2. 目标

找到频繁地共同出现在消费者结账小票中项目(比如啤酒和尿布), 来一同促销, 相互拉动, 提高销售额.

3. 定义

支持度support: 其实就是概率论中的频次frequency

支持度阈值support threshhold: 记为s, 指分辨频繁项集的临界值.

频繁项集: 如果I是一个项集(Itemset), 且I的出现频次(i.e.支持度)大于等于s, 那么我们说I是频繁项集.

一元项, 二元项, 三元项: 包含有一种商品, 两种, 三种商品的项集.

4. 关联规则

关联规则: 形式为I->j, 含义是如果I种所有项都出现在某个购物篮的话, 那么j很有可能也出现在这个购物篮中. 我们可以给出相应的confidence值(可信度, 即概率论中的置信度).

其中, 这个关联规则的可信度计算为Confidence = I∪{j} / I, 本身是非常符合直觉和常识的. 比如我们说关联规则{dog, cat} -> and 的可信度为0.6, 因为{dog, cat}出现在了1, 2, 3, 6, 7五个购物篮中, 而and出现在了1,2,7中, 因此我们可以算出Confidence = freq[{dog, cat, and}] / freq[{dog, cat}] = 3/5 = 0.6

注意到, 分子部分的频次总是比分母低, 这是因为{dog, cat} 出现的次数总是大于等于{dog, cat, and}的出现次数.

二. 购物篮与A-Priori算法

1. 购物篮数据表示

我们将有一个文本文件输入, 比如allBills.txt, 或者allBills.csv. 里面每行是一个购物篮.

文件的头两行可能是这样(df.show(2)):

{23, 456, 1001}

{3, 18, 92, 145}

我们假定这是一家大型连锁超市, 比如沃尔玛, 因此这个文本文件是非常大的, 比如20GB. 因此我们无法一次将该文件读入内存. 因此, 算法的主要时间开销都是磁盘IO.

我们同时还假定, 所有购物篮的平均规模是较小的, 因此在内存中产生所有大小项集的时间开销会比读入购物篮的时间少很多.

我们可以计算, 对于有n个项目组成的购物篮而言, 大小为k的所有子集的生成时间约为(n, k) = n! / ((n-k)!k!) = O(n^k/ k!), 其中我们只关注较小的频繁项集, 因此我们约定k=2或者k=3. 因此所有子集生成时间T = O(n^3).

Again, 我们认为在内存中产生所有大小项集的时间开销会比读入购物篮的时间少很多.

2. Itemset计数过程中的内存使用

我们必须要把整个k,v字典放在内存中, 否则来一个Itemset就去硬盘读取一次字典将十分十分地慢.

此处, 字典是k=(18, 145), v=15这种形式. 此处, 应当注意到, 如果有{bread, milk, orange}这样的String类型输入, 应当预先用一个字典映射成对应的整数值编码, 比如1920, 4453, 9101这样.

那么, 我们最多能用字典存储多少种商品?

先看下我们存储多少个count值.

我们假定项的总数目是n, 即超市有n种商品, 每个商品都有一个数字编号, 那么我们需要(n, 2) = n^2/2 的大小来存储所有的二元组合的count, 假设int是占4个byte, 那么需要(2·n^2)Byte内存. 已知2GB内存 = 2^31 Byte, 即2^31/2 = 2^30 >= n^2 --> n <= 2^15. 也就是说n<33 000, 因此我们说商品种类的最多是33k种.

但是, 这种计算方法存在一个问题, 并不是有10种商品, 那么这10种商品的任意二元组合都会出现的. 对于那些没出现的组合, 我们在字典中完全可以不存储, 从而节省空间.

同时, 别忘了我们同样也得存储key = (i, j), 这是至少额外的两个整数.

那么我们到底具体怎么存储这些计数值?

可以采用三元组的方式来构造字典. 我们采用[i, j, count]形式来存储, 其中i代表商品种类1, j代表商品种类2, 前两个值代表key, 后面的value就是count, 是这个二元组合下的计数.

现在, 让我们注意到我们(1)假定购物篮平均大小较小, 并(2)利用三元组(2个key的)字典和(3)不存储没出现组合优势. 假设有100k = 10^5种商品, 有10million=10^7个购物篮, 每个购物篮有10个项, 那么这种字典空间开销是(10, 2) · 10^7 = 45 x 10^7 x 3= 4.5x10^8x3 = 1.35x10^9 个整数. 这算出来约为4x10^8 Byte = 400MB, 处于正常计算机内存范围内.

3. 项集的单调性

如果项集I是频繁的, 那么它的所有子集也都是频繁的. 这个道理很符合常识, 因为{dog, cat} 出现的次数总是大于等于{dog, cat, and}的出现次数.

这个规律的推论, 就是严格地, 我们频繁一元组的个数> 频繁二元组的个数 > 频繁三元组的个数.

4. A-Priori算法

我们通过Itemset计数中内存使用的部门, 已经明确了我们总是有足够的内存用于所有存在的二元项集(比如{cat, dog})的计数. 这里, 我们的字典不存放不存在于购物篮中的任何二元项集合, 而且频繁二元组的数目将会大于三元频繁三元组> ...

我们可以通过单边扫描购物篮文件, 对于每个购物篮, 我们使用一个双重循环就可以生成所有的项对(即二元组). 每当我们生成一个项对, 就给其对应的字典中的value +1(也称为计数器). 最后, 我们会检查所有项对的计数结果,并且找出那些>=阈值s的项对, 他们就是频繁项对.

1) A-Priori算法的第一遍扫描

在第一遍扫描中, 我们将建立两个表. 第一张表将项的名称转换为1到n之间的整数, 从而把String类型这样的key转为空间大小更小的int类型. 第二张表将记录从1~n每个项在所有购物篮中出现的次数. 形式上类似

table 0(name table): {'dolphin': 7019, 'cat': 7020} //dict形式, 其实也可以做成list形式 [['dolphin', 7019], ['cat', 7020]]

table 1(single-item counter table): {7019: 15, 7020: 18} //dict形式, 其实也可以做成数组形式A[7019] = 2, A[7020] = 18

2) 第一遍扫描完的处理

第一遍扫描完后, 我们会按照自己设定的阈值s, 对整个table 1再进行一次mapping, 因为我们只关注最后counter值大于等于阈值的项目, 而且不关心其counter值具体多少. 因此, mapping策略是:

对凡是counter<s的, 一律把counter设成0; 对于counter>=s的, 按照次序, 把其设置成1~m的值(总共有m个满足要求的项)

3) 第二遍扫描

第二遍扫描所做的事有三:

(1) 对每个购物篮, 在table 1中检查其所有的商品项目, 把所有为频繁项的留下来建立一个list.

(2) 通过一个双重循环生成该list中的所有项对.

(3) 再走一次循环, 在新的数据结构table 2(dict或者list)中相应的位置+1. 此时的效果是dicta = {48: {13: 5}, 49: {71, 16}} 或者 lista [ [48, 13, 5],[49, 71, 16], ... ]

注意此时内存块上存储的结构: table1(name table), table2(single-item counter table), table3(double-item counter table)

5. 推广: 任意大小频繁项集上的A-Priori算法

我们对上面这个算法进行推广.

从任意集合大小k到下一个大小k+1的转移模式可以这么说:

(1) 对每个购物篮, 在table 1中检查其所有的商品项目, 把所有为频繁项的留下来建立一个list.

(2) 我们通过一个k+1重循环来生成该list中的所有(k+1)元组

(3) 对每个k+1元组, 我们生成其的(k+1 choose k)个k元组, 并检查这些k元组是否都在之前的table k中. (注意到k=1的时候, 这步与(1)是重复的, 可以省略)

(4)再走一次循环, 在新的数据结构table k+1(dict或者list)中相应的位置+1. 此时的效果是k=2, k+1=3, 生成dicta = {48: {13: {19: 4}}, 49: {71: {51: 10}}, ... } 或者生成lista [ [48, 13, 19, 4],[49, 71, 51, 10], ... ]

注意, 在进入下一次扫描前, 我们还需要额外把counter中值小于s的元组的计数值都记为0.

模式总体是:C1 过滤后 L1 计数后 C2 置零后 C2' 过滤后 L2 计数后 C3 置零后 C3' ......

END.

生成的商品种类为set形式：转成list形式

第一张表：把项名称转换为1~n的整数：

至于数数，大神说，你就用collections.Counter就好：哈？

哈哈，可爱的wyy，开始分析吧~噜噜噜啦啦啦~噜啦噜啦噜~

生成全零矩阵：

换成zeros:

统计每一列的和，即每种商品的购买总数：

每一行列:

第一行：

建立一个新的只含有频繁一项集的购物篮矩阵：

频繁二项集：

❸ 数据挖掘- 关联分析算法

关联分析，顾名思义就是找出哪几项之间是有关联关系的，举个例子：

以上是五个购物记录，从中我们可以发现，购买了尿布的人其中有3个购买了啤酒，那么久我们可以推测，尿布和啤酒之间有较强的关联关系，尽管他们之间看起来并没有什么联系，也就是能得到规则：

因为购物分析能较好地描述关联分析，所以又被叫做 购物篮分析 。
为了较好的描述这个分析的各种名词，我们把上面的表格重新设计一下：

把每一个购物订单中，涉及到的商品都变成1，没涉及到的变成0，也就是将各个商品的购买记录 二元化 。
当然肯定也有多个分类的情况。

那么面包，牛奶这些就叫数据集的项，而他们组合起来的子集就叫做项集。可以为空，空集是不包含任何项的项集，如果一个项集包含k个子项，就叫做k-项集。
订单12345叫做事务，某个项集在所有事务中出现多少次，叫做项集的 支持度计数 。

在上面的表格中，项集{啤酒、尿布、牛奶}的支持度计数为2，因为有两个事务（3、4）包含这一项集。

用 支持度 和 置信度 来衡量，假定存在规则，其中X和Y是 不相交 的项集，则支持度为：
其中N是数据集中的事务个数，相当于表示该规则在数据集中出现了多少次。
置信度为：

置信度的意思就是，在出现X的情况下，有多少次同时出现了Y，代表这个关联规则的频繁程度。

注意置信度的分母是，因此这个评价可能会存在一定的问题。

关联分析的核心目标就是找出支持度大于等于某个阈值，同时置信度大于等于某个阈值的所有规则，这两个阈值记为和。

为了更有效率的完成这个过程，通常把关联规则算法分为两步：

可以看出来，樱备首先要求得频繁项集，这步骤的开销很大，但是只需要考虑支持度就可以了，第二步只考虑置信度就可以了。

下面就可以分两步来解析算法：

首先我们可以把项集联想成一个树形结构，每层代表着不同的k-项集，依层递增，非叶子节点来自于他的几个父节点的并集，如图：

我们肯定不能通过传统的方式，遍历这些节点，算出支持度，然后筛选掉不满足最小支持度的那些，这样开销太大，因此我们引入先验原理，来辅助剪枝。

这个原理不难想象，假如一个项集{a,b}是非频繁项集，那么{a,b,c}肯定也是，因为ab是，在{a,b,c}中与之关联的c必须在ab出现之后才存在，因此他的支持度肯定不会大于{a,b}。

频繁的就是支持度大于等于最小支持度的项集，非频繁就是小于的。

我们可以利用这一定理，把非频繁项集的超集一并从树中减去，这样就能大大的降低计算次数，如图：

虚线圈上的，就是在{a,b}确定是非频繁项集之后，剪掉的超集，这些是不用计算的。

根据这个原理，可以说一下Apriori算法。

根据上面说的先验原理，Apriori算法先从项集宽度最低的1开始，遍历所有的项集支持度，找出频繁项集（因为第一层在找出支持度之前），之后根据先验原理，挑选任意两个频繁项集组成2-频繁项集（很简单，如果挑非频繁的，那组成的项集就不是频繁项集了），再用2-项集挑选3-项集，直到挑选不出更高层次的项集为止，把这些项集作为 候选项集 ，如图：

图中1-项集中，啤酒，面包，尿布，牛奶的支持度大于等于3（设为3），则由他们组成2-项集，继续筛选满足支持度不小于3的项集，再由2-项集生成3-项集，这就是 Apriori 算法筛选频繁项集的基本步骤。总结如下：

上面提到了用k-1项集生成k-项脊稿毁集，那么如何才能最有效率的产生k-项集呢，这里用了的方法，也就是找到一对（k-1）-项集，当他们的前（k-2）项都相同时，进行合并，合并之后的结果就是{ }，因为前k-2项是相同的。
举个例子：

上面说了如何产生候选项集，接下来就是如何更敬尘有效率的确定支持度计数了，同样，如果遍历一个一个查的话效率是很低的，我们可以用枚举的方法遍历每个事务包含的项集，以查找3-项集为例，如图：

因为我们要查3-项集，因此树状结构就分到3-项集为止。
因为3-项集的开头第一个项肯定在1，2，3之间，我们就设定这三个数为三个分支，无论到哪个节点，都严格按照这个来分（1在左，2在中，3在右），在下面的层次中如何碰到比123更大的，则再向右分，就可以得到图中的关于事务t的所有3-项集。

有了所有项集的列表，我们可以用候选项集去匹配这些项集，从而看t中是否包含候选项集，如果包含，则支持度+1。

可以使用Hash树来进行匹配，从而实现支持度计数。
如下图，就是一个Hash树的例子，每个内部节点都使用Hash函数来确定应当沿着当前节点的哪个分支向下，所以1，4，7就到了同一分支。

我们对于单个事务，可以遍历Hash树，设事务为t，则保证所有包含属于事务t的候选3-项集的叶节点至少访问一次。

由于我们之前已经通过树的方式枚举出了t中所有的3-项集，那么我们跟这个Hash一走分支，找到对应3-项集的就+1支持度，即可算出每个候选项集的支持度。

提取规则相应的比较简单，设有 频繁项集Y ，我们忽略前件为空和后件为空的规则，每个频繁项集能产生个关联规则，提取方法就是将Y划分为两个非空的子集X和Y-X，使得满足 置信度阈值 也就是最小置信度。

同样的，提取规则也有一个原理：

参考频繁项集的寻找过程，我们可以利用树形结构对规则进行剪枝。
树的每层对应规则后件中的项数，如图：

假设规则{ } { }不满足置信度阈值的要求，那么可以丢弃后件包含{a}的所有规则，如上图所示。

至此我们经历了寻找频繁项集和提取规则的过程，基本Apriori算法就算完成了，不过还有一些需要考虑的细节。

在实际应用过程中，往往频繁项集产生的数量可能很大，所以很难表示，我们需要寻找一种方法，找到一些有代表性的频繁项集，以保证其描述性。

通常有如下两种方法：

如图：

这种表示很明显降低了需要表示项集的个数，我们需要别的候选项集，直接取极大频繁项集的子集就行，任意一个肯定都是。

但是这么做，表示不出他们子集的支持度，所以就需要再遍历数据集，确定非极大频繁项集的支持度，不是很方便。

所以我们还可以用闭频繁项集来表示。

先来看闭项集的概念：

那么闭频繁项集的概念就很好理解了：

如图，我们假设是40%。

这种做法可以保证支持度和描述性。

之前举的例子都是二元分类的，要么1要么0，下面看多分类的，我们很容易想到可以用独热编码解决这个问题，把所有分类二元化，但是这样就存在一个问题，有的属性值可能会不够频繁，没办法成为频繁项集。
所以最好是把多分类的项根据实际情况进行分类化，不要针对每个属性都设置独热编码。

或者将不太频繁的属性值合并为一个称作其他的类别。

所以面对多分类属性，我们要做的就是：
独热编码二元化-针对这些值进行一定的合并，或者分类或者并为其他 - 删除冗余的项 - 避免包含多个来自同一属性的项的候选集（例如{ }，被写到了一个候选集中，但是实际上这种情况不可能发生，由于独热编码进行的二元化而产生了这种情况，需要避免。）

我们也会遇到一些连续属性，可以通过以下几种方式处理：

这种做法有一个问题就是分类的效果取决于区间的个数和跨度，如果取不好很难得到理想的结果。

如果要验证统计出的值是否具有统计意义，可以参考假设检验中针对不同比较的不同公式，这里不再举例。

把mini-Apriori算法中的支持度代入到Apriori算法的支持度中即可。

举个例子：

想要衡量模型的好与坏，肯定要有一个评估指标，我们可以根据业务实际去评价，这是主管评价，叫做 主观兴趣度度量 ，这个显然要结合业务，所以我们要看看一些客观指标。

指标的评价往往依赖于相依表，这个相依表有点类似于混淆矩阵：

其中A，B代表在事务中出现，!A,!B代表没有在事务中出现，空列空行例如代表A的支持度计数，表示包含B但是不包含A的事务的个数。

最基本的就是置信度和支持度了，但是这两种指标都很难做到客观评价模型，会受到多种因素的影响。

我们可以用 兴趣因子 来衡量模型：
首先我们引入 提升度 的概念，它用于计算规则置信度和 规则后件 中项集的支持度之间的比率，

对于二元变量，提升度等价于另一种称作兴趣因子的客观度量，定义为：
其中N是事务个数。
如果

但是兴趣因子有一定局限性，看上图，{p,q}和{r,s}的兴趣因子分别为1.02和4.08，虽然p和q同时出现在88%的文档中，但是他们的兴趣因子接近于1，表明他们相互独立，另一方面，{r,s}的兴趣因子闭{p,q}的高，但是r和s很少出现在一个文档中，这种情况下，置信度要比兴趣因子更可信，置信度表明p和q之间的联系94.6%远高于r和s之间。

另外还可以引入 相关系数 ，逻辑类似于向量的相关系数：

相关度的值从-1到1，如果变量相互独立，则Φ=0。

他的局限性在于在食物中把同时出现和同时不出现视为同等重要，这往往不符合实际规律，同时对于倾斜的变量很难度量。

IS度量 可以用于处理非对称二元变量，定义如下：
IS数学上等价于二元变量的余弦度量。
但是IS取决于A和B的支持度，所以存在与置信度度量类似的问题——即使是不相关或者负相关的模式，度量值也可能相当大。

支持度，全置信度，可以应用于较大的项集，兴趣因子，IS、PS、Jaccard系数等使用多维相依表中的频率，可以扩展到多个变量。

针对大多数项具有较低或中等的频率，但是少数项具有很高频率的数据集。

交叉支持模式是一个项集，他的支持度比率是：
小于用户指定的阈值。

需要保证全置信度小于上面的支持度比率，而全置信度是：
其中 .

全置信度能够确保项集中的项之间是强关联的，例如，假定一个项集X的全置信度是80%，如果X中的一个项出现在某个事物中，则X中其他的项至少也有80%的几率属于同一个事务，这种强关联模式又称 超团模式 。

❹ 推荐算法之模型协同过滤（1）-关联规则

关联规则是数据挖掘中的典型问题之一，又被称为购物篮分析，这是因为传统的关联规则案例大多发生在超市中，例如所谓的啤酒与尿布传说。事实上，“购物篮”这个词也揭示了关联规则挖掘的一个重要特点：以交易记录为研究对象，每一个购物篮（transaction）就是一条记录。关联规则希望挖掘的规则就是：哪些商品会经常在同一个购物篮中出现，其中有没有因果关系。为了描述这种“经常性”及“因果关系”，分析者定义了几个指标，基于这些指标来筛选关联规则，从而得到那些不平凡的规律。

（1）计算支持度
支持度计数：一个项集出现在几个事务当中，它的支持度计数就是几。例如{Diaper, Beer}出现在事务 002、003和004中，所以它的支持度计数是3
支持度：支持度计数除于总的事务数。例如上例中总的事务数为4，{Diaper, Beer}的支持度计数为3，所以它的支持度是3÷4=75%，说明有75%的人同时买了Diaper和Beer。

（2）计算置信度
置信度：对于规则{Diaper}→{Beer}，{Diaper, Beer}的支持度计数除于{Diaper}的支持度计数，为这个规则的置信度。例如规则{Diaper}→{Beer}的置信度为3÷3=100%。说明买了Diaper的人100%也买了Beer。

一般地，关联规则被划分为动态推荐，而协同过滤则更多地被视为静态推荐。
所谓动态推荐，就是推荐的基础是且只是当前一次（最近一次）的购买或者点击。譬如用户在网站上看了一个啤酒，系统就找到与这个啤酒相关的关联规则，然后根据这个规则向用户进行推荐。而静态推荐则是在对用户进行了一定分析的基础上，建立了这个用户在一定时期内的偏好排序，然后在这段时期内持续地按照这个排序来进行推荐。由此可见，关联规则与协同过滤的策略思路是完全不同的类型。
事实上，即便在当下很多能够拿到用户ID的场景，使用动态的关联规则推荐仍然是值得考虑的一种方法（尤其是我们经常把很多推荐方法的结果综合起来做一个混合的推荐），因为这种方法的逻辑思路跟协同过滤有着本质的不同，问题似乎仅仅在于：个人的偏好到底有多稳定，推荐到底是要迎合用户的长期偏好还是用户的当下需求。

挖掘关联规则主要有Apriori算法和FP-Growth算法。后者解决了前者由于频繁的扫描数据集造成的效率低下缺点。以下按照Apriori算法来讲解。

step 1： 扫描数据集生成满足最小支持度的频繁项集。
step 2： 计算规则的置信度，返回满足最小置信度的规则。

如下所示，当用户购买1商品时推荐2、3商品

导航:首页 > 源码编译 > 购物篮分析算法

购物篮分析算法

与购物篮分析算法相关的资料