1. 求大神指導,聚類分析、數據挖掘、關聯規則這幾個概念中到底是什麼關系。謝謝
聚類分析與關聯規則是數據挖掘中的核心技術;
從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標准,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析,所得到的聚類數未必一致。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他演算法(如分類和定性歸納演算法)的預處理步驟。
關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(FrequentItemsets),第二階段再由這些高頻項目組中產生關聯規則(AssociationRules)。
關聯規則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(LargeItemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言,必須達到某一水平。
關聯規則挖掘的第二階段是要產生關聯規則(AssociationRules)。從高頻項目組產生關聯規則,是利用前一步驟的高頻k-項目組來產生規則,在最小信賴度(MinimumConfidence)的條件門檻下,若一規則所求得的信賴度滿足最小信賴度,稱此規則為關聯規則。
按照不同情況,關聯規則可以進行分類如下:
1.基於規則中處理的變數的類別,關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的,它顯示了這些變數之間的關系;而數值型關聯規則可以和多維關聯或多層關聯規則結合起來,對數值型欄位進行處理,將其進行動態的分割,或者直接對原始的數據進行處理,當然數值型關聯規則中也可以包含種類變數。例如:性別=「女」=>職業=「秘書」,是布爾型關聯規則;性別=「女」=>avg(收入)=2300,涉及的收入是數值類型,所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中,所有的變數都沒有考慮到現實的數據是具有多個不同的層次的;而在多層的關聯規則中,對數據的多層性已經進行了充分的考慮。例如:IBM台式機=>Sony列印機,是一個細節數據上的單層關聯規則;台式機=>Sony列印機,是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數,關聯規則可以分為單維的和多維的。
在單維的關聯規則中,我們只涉及到數據的一個維,如用戶購買的物品;而在多維的關聯規則中,要處理的數據將會涉及多個維。換成另一句話,單維關聯規則是處理單個屬性中的一些關系;多維關聯規則是處理各個屬性之間的某些關系。例如:啤酒=>尿布,這條規則只涉及到用戶的購買的物品;性別=「女」=>職業=「秘書」,這條規則就涉及到兩個欄位的信息,是兩個維上的一條關聯規則。
2. 關聯規則演算法怎麼刻畫相似度
關聯規則原始的定義裡面並沒有相似度的概念
只有支持度和置信度,
支持度 (A->B )=P(AB) 就是AB出現的概率
支持度 (A->B )=P(B|A) 就是A發生條件下B發生的概率。
相似度公式cosine (A->B) = P(AB)/√P(A)P(B)
不知道是不是你要的
3. 關聯規則演算法的關聯規則的定義
所謂關聯,反映的是一個事件和其他事件之間依賴或關聯的知識。當我們查找英文文獻的時候,可以發現有兩個英文詞都能形容關聯的含義。第一個是相關性relevance,第二個是關聯性association,兩者都可以用來描述事件之間的關聯程度。
設I={i1,i2…,im}為所有項目的集合,設A是一個由項目構成的集合,稱為項集。事務T是一個項目子集,每一個事務具有唯一的事務標識Tid。事務T包含項集A,當且僅當AT。如果項集A中包含k個項目,則稱其為k項集。D為事務資料庫,項集A在事務資料庫D中出現的次數佔D中總事務的百分比叫做項集的支持度(support)。如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集(或大項集)。
關聯規則就是形如XY的邏輯蘊含關系,其中XI,YI且XY=Φ,X稱作規則的前件,Y是結果,對於關聯規則XY,存在支持度和信任度。
支持度是指規則中所出現模式的頻率,如果事務資料庫有s%的事務包含XY,則稱關聯規則XY在D中的支持度為s%,實際上,可以表示為概率P(XY),即support(XY)= P(XY)。信任度是指蘊含的強度,即事務D中c%的包含X的交易同時包含XY。若X的支持度是support(x),規則的信任度為即為:support(XY)/support(X),這是一個條件概率P(Y|X),即confidence(XY)= P(Y|X)。