① 利用Apriori演算法產生頻繁項集,(min sup=0.6),給出具體計算過程
Apriori演算法是一種發現頻繁項集的基本演算法。演算法使用頻繁項集性質的先驗知識。Apriori演算法使用一種稱為逐層搜索的迭代方法,其中K項集用於探索(k+1)項集。首先,通過掃描資料庫,累計每個項的計數,並收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記為L1.然後,使用L1找出頻繁2項集的集合L2,使用L2找到L3,如此下去,直到不能再找到頻繁k項集。Apriori演算法的主要步驟如下:(1)掃描事務資料庫中的每個事務,產生候選1.項集的集合Cl;(2)根據最小支持度min_sup,由候選l-項集的集合Cl產生頻繁1一項集的集合Ll;(3)對k=l;(4)由Lk執行連接和剪枝操作,產生候選(k+1).項集的集合Ck+l-(5)根據最小支持度min_sup,由候選(k+1)一項集的集合Ck+l產生頻繁(k+1)-項集的集合Lk+1.(6)若L?≠①,則k.k+1,跳往步驟(4);否則,跳往步驟(7);(7)根據最小置信度min_conf,由頻繁項集產生強關聯規則,結束。
② apriori演算法是什麼
經典的關聯規則挖掘演算法包括Apriori演算法和FP-growth演算法。
apriori演算法多次掃描交易資料庫,每次利用候選頻繁集產生頻繁集;而FP-growth則利用樹形結構,無需產生候選頻繁集而是直接得到頻繁集,大大減少掃描交易資料庫的次數,從而提高了演算法的效率,但是apriori的演算法擴展性較好,可以用於並行計算等領域。
(2)傳統演算法apriori擴展閱讀:
Apriori algorithm是關聯規則里一項基本演算法
Apriori演算法將發現關聯規則的過程分:
第一通過迭代,檢索出事務資料庫1中的所有頻繁項集,即支持度不低於用戶設定的閾值的項集;
第二利用頻繁項集構造出滿足用戶最小信任度的規則。其中,挖掘或識別出所有頻繁項集是該演算法的核心,占整個計算量的大部分。
③ 如何提高apriori演算法的效率
Apriori演算法是關聯規則挖掘中的經典演算法。在Apriori演算法中,使用頻繁項集的先驗知識,逐層搜索的迭代方法,通過掃描資料庫,累積每個項的計數,並收集滿足最小支持度的項,找每個Lk都需要掃描一次資料庫。演算法的效率隨著數據量的增大,頻繁項集的增多,演算法的效率就非常的低,本文通過對Apriori演算法分析,應用散列、事務壓縮、劃分、抽樣等方法,最大可能的減少資料庫掃描的次數,快速發現頻繁項集,提高Apriori演算法的效率。
④ Apriori演算法的核心是
連接和剪枝。
簡言之就是對一個已知的交易資料庫D,有一個最小支持閾值min_support,即為該演算法的輸入;演算法的輸出為滿足最小支持閾值的頻繁項集L。
具體為:掃描D,對每個交易商品(T1,...,Tk---1項候選項集)計數,找出滿足計數大於min_support的項集,即為1項頻繁集L1;
關鍵的來了:如何由1項頻繁集L1產生2項候選項集C2,此步稱為連接。
如何由C2得到L2,此步即為剪枝。從C2中找出計數大於min_support的項集,即為L2。
重復以上過程,增大頻繁項集的長度,直至沒有更長的頻繁項集。
⑤ 模式挖掘(一):頻繁項集挖掘演算法Apriori和FP Tree
Apriori是最常用的頻繁項集挖掘演算法,其計算邏輯簡單易於直觀理解。在實際應用中舉例,其易於從大量訂單數據中獲取頻繁出現的組合項集,以便於輸出計算單元之間的關聯度,從而給組套銷售、上架擺放等提供建議。下面介紹下工作中總結的知識,和需要避開的問題。
以訂單數據為例。在大量的訂單中,如何評價某一商品組合對的出現頻繁?其組合出現的次數多於其它組合嗎。若訂單覆蓋的商品品類豐富,那麼需求量不高的品類的組合便會被淹沒在快消品的組合里。所以在Apriori中有從三個不同的角度評價頻繁項集,描述元素關聯關系的指標:支持度、置信度、提升度。
在Apriori中有三個維度的頻繁項集的指標: 支持度 、 置信度 、 提升度 。下面以二元的組合舉例說明。
支持度:
置信度:
提升度:
⑥ 數據挖掘中的apriori演算法的具體步驟是什麼
演算法:Apriori
輸入:D - 事務資料庫;min_sup - 最小支持度計數閾值
輸出:L - D中的頻繁項集
方法:
L1=find_frequent_1-itemsets(D); // 找出所有頻繁1項集
For(k=2;Lk-1!=null;k++){
Ck=apriori_gen(Lk-1); // 產生候選,並剪枝
For each 事務t in D{ // 掃描D進行候選計數
Ct =subset(Ck,t); // 得到t的子集
For each 候選c 屬於 Ct
c.count++;
}
Lk={c屬於Ck | c.count>=min_sup}
}
Return L=所有的頻繁集;
Procere apriori_gen(Lk-1:frequent(k-1)-itemsets)
For each項集l1屬於Lk-1
For each項集 l2屬於Lk-1
If((l1[1]=l2[1])&&( l1[2]=l2[2])&&……..
&& (l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1])) then{
c=l1連接l2 //連接步:產生候選
if has_infrequent_subset(c,Lk-1) then
delete c; //剪枝步:刪除非頻繁候選
else add c to Ck;
}
Return Ck;
Procere has_infrequent_sub(c:candidate k-itemset; Lk-1:frequent(k-1)-itemsets)
For each(k-1)-subset s of c
If s不屬於Lk-1 then
Return true;
Return false;