Ⅰ 常用的聚類方法有哪幾種
聚類分析的演算法可以分為劃分法、層次法、基於密度的方法、基於網格的方法、基於模型的方法。
1、劃分法,給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N。
2、層次法,這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。
3、基於密度的方法,基於密度的方法與其它方法的一個根本區別是:它不是基於各種各樣的距離的,而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。
4、圖論聚類方法解決的第一步是建立與問題相適應的圖,圖的節點對應於被分析數據的最小單元,圖的邊(或弧)對應於最小處理單元數據之間的相似性度量。
5、基於網格的方法,這種方法首先將數據空間劃分成為有限個單元的網格結構,所有的處理都是以單個的單元為對象的。
6、基於模型的方法,基於模型的方法給每一個聚類假定一個模型,然後去尋找能夠很好的滿足這個模型的數據集。
(1)聚類演算法識別行為擴展閱讀:
在商業上,聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來,並且概括出每一類消費者的消費模式或者說習慣。
它作為數據挖掘中的一個模塊,可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息,並且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;並且,聚類分析也可以作為數據挖掘演算法中其他分析演算法的一個預處理步驟。
許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好;但是,一個大規模資料庫可能包含幾百萬個對象,在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。
許多聚類演算法在聚類分析中要求用戶輸入一定的參數,例如希望產生的簇的數目。聚類結果對於輸入參數十分敏感。參數通常很難確定,特別是對於包含高維對象的數據集來說。這樣不僅加重了用戶的負擔,也使得聚類的質量難以控制。
Ⅱ 四種聚類方法之比較
四種聚類方法之比較
介紹了較為常見的k-means、層次聚類、SOM、FCM等四種聚類演算法,闡述了各自的原理和使用步驟,利用國際通用測試數據集IRIS對這些演算法進行了驗證和比較。結果顯示對該測試類型數據,FCM和k-means都具有較高的准確度,層次聚類准確度最差,而SOM則耗時最長。
關鍵詞:聚類演算法;k-means;層次聚類;SOM;FCM
聚類分析是一種重要的人類行為,早在孩提時代,一個人就通過不斷改進下意識中的聚類模式來學會如何區分貓狗、動物植物。目前在許多領域都得到了廣泛的研究和成功的應用,如用於模式識別、數據分析、圖像處理、市場研究、客戶分割、Web文檔分類等[1]。
聚類就是按照某個特定標准(如距離准則)把一個數據集分割成不同的類或簇,使得同一個簇內的數據對象的相似性盡可能大,同時不在同一個簇中的數據對象的差異性也盡可能地大。即聚類後同一類的數據盡可能聚集到一起,不同數據盡量分離。
聚類技術[2]正在蓬勃發展,對此有貢獻的研究領域包括數據挖掘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等。各種聚類方法也被不斷提出和改進,而不同的方法適合於不同類型的數據,因此對各種聚類方法、聚類效果的比較成為值得研究的課題。
1 聚類演算法的分類
目前,有大量的聚類演算法[3]。而對於具體應用,聚類演算法的選擇取決於數據的類型、聚類的目的。如果聚類分析被用作描述或探查的工具,可以對同樣的數據嘗試多種演算法,以發現數據可能揭示的結果。
主要的聚類演算法可以劃分為如下幾類:劃分方法、層次方法、基於密度的方法、基於網格的方法以及基於模型的方法[4-6]。
每一類中都存在著得到廣泛應用的演算法,例如:劃分方法中的k-means[7]聚類演算法、層次方法中的凝聚型層次聚類演算法[8]、基於模型方法中的神經網路[9]聚類演算法等。
目前,聚類問題的研究不僅僅局限於上述的硬聚類,即每一個數據只能被歸為一類,模糊聚類[10]也是聚類分析中研究較為廣泛的一個分支。模糊聚類通過隸屬函數來確定每個數據隸屬於各個簇的程度,而不是將一個數據對象硬性地歸類到某一簇中。目前已有很多關於模糊聚類的演算法被提出,如著名的FCM演算法等。
本文主要對k-means聚類演算法、凝聚型層次聚類演算法、神經網路聚類演算法之SOM,以及模糊聚類的FCM演算法通過通用測試數據集進行聚類效果的比較和分析。
2 四種常用聚類演算法研究
2.1 k-means聚類演算法
k-means是劃分方法中較經典的聚類演算法之一。由於該演算法的效率高,所以在對大規模數據進行聚類時被廣泛應用。目前,許多演算法均圍繞著該演算法進行擴展和改進。
k-means演算法以k為參數,把n個對象分成k個簇,使簇內具有較高的相似度,而簇間的相似度較低。k-means演算法的處理過程如下:首先,隨機地選擇k個對象,每個對象初始地代表了一個簇的平均值或中心;對剩餘的每個對象,根據其與各簇中心的距離,將它賦給最近的簇;然後重新計算每個簇的平均值。這個過程不斷重復,直到准則函數收斂。通常,採用平方誤差准則,其定義如下:
這里E是資料庫中所有對象的平方誤差的總和,p是空間中的點,mi是簇Ci的平均值[9]。該目標函數使生成的簇盡可能緊湊獨立,使用的距離度量是歐幾里得距離,當然也可以用其他距離度量。k-means聚類演算法的演算法流程如下:
輸入:包含n個對象的資料庫和簇的數目k;
輸出:k個簇,使平方誤差准則最小。
步驟:
(1) 任意選擇k個對象作為初始的簇中心;
(2) repeat;
(3) 根據簇中對象的平均值,將每個對象(重新)賦予最類似的簇;
(4) 更新簇的平均值,即計算每個簇中對象的平均值;
(5) until不再發生變化。
2.2 層次聚類演算法
根據層次分解的順序是自底向上的還是自上向下的,層次聚類演算法分為凝聚的層次聚類演算法和分裂的層次聚類演算法。
凝聚型層次聚類的策略是先將每個對象作為一個簇,然後合並這些原子簇為越來越大的簇,直到所有對象都在一個簇中,或者某個終結條件被滿足。絕大多數層次聚類屬於凝聚型層次聚類,它們只是在簇間相似度的定義上有所不同。四種廣泛採用的簇間距離度量方法如下:
這里給出採用最小距離的凝聚層次聚類演算法流程:
(1) 將每個對象看作一類,計算兩兩之間的最小距離;
(2) 將距離最小的兩個類合並成一個新類;
(3) 重新計算新類與所有類之間的距離;
(4) 重復(2)、(3),直到所有類最後合並成一類。
2.3 SOM聚類演算法
SOM神經網路[11]是由芬蘭神經網路專家Kohonen教授提出的,該演算法假設在輸入對象中存在一些拓撲結構或順序,可以實現從輸入空間(n維)到輸出平面(2維)的降維映射,其映射具有拓撲特徵保持性質,與實際的大腦處理有很強的理論聯系。
SOM網路包含輸入層和輸出層。輸入層對應一個高維的輸入向量,輸出層由一系列組織在2維網格上的有序節點構成,輸入節點與輸出節點通過權重向量連接。學習過程中,找到與之距離最短的輸出層單元,即獲勝單元,對其更新。同時,將鄰近區域的權值更新,使輸出節點保持輸入向量的拓撲特徵。
演算法流程:
(1) 網路初始化,對輸出層每個節點權重賦初值;
(2) 將輸入樣本中隨機選取輸入向量,找到與輸入向量距離最小的權重向量;
(3) 定義獲勝單元,在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏;
(4) 提供新樣本、進行訓練;
(5) 收縮鄰域半徑、減小學習率、重復,直到小於允許值,輸出聚類結果。
2.4 FCM聚類演算法
1965年美國加州大學柏克萊分校的扎德教授第一次提出了『集合』的概念。經過十多年的發展,模糊集合理論漸漸被應用到各個實際應用方面。為克服非此即彼的分類缺點,出現了以模糊集合論為數學基礎的聚類分析。用模糊數學的方法進行聚類分析,就是模糊聚類分析[12]。
FCM演算法是一種以隸屬度來確定每個數據點屬於某個聚類程度的演算法。該聚類演算法是傳統硬聚類演算法的一種改進。
演算法流程:
(1) 標准化數據矩陣;
(2) 建立模糊相似矩陣,初始化隸屬矩陣;
(3) 演算法開始迭代,直到目標函數收斂到極小值;
(4) 根據迭代結果,由最後的隸屬矩陣確定數據所屬的類,顯示最後的聚類結果。
3 四種聚類演算法試驗
3.1 試驗數據
實驗中,選取專門用於測試分類、聚類演算法的國際通用的UCI資料庫中的IRIS[13]數據集,IRIS數據集包含150個樣本數據,分別取自三種不同的鶯尾屬植物setosa、versicolor和virginica的花朵樣本,每個數據含有4個屬性,即萼片長度、萼片寬度、花瓣長度,單位為cm。在數據集上執行不同的聚類演算法,可以得到不同精度的聚類結果。
3.2 試驗結果說明
文中基於前面所述各演算法原理及演算法流程,用matlab進行編程運算,得到表1所示聚類結果。
如表1所示,對於四種聚類演算法,按三方面進行比較:(1)聚錯樣本數:總的聚錯的樣本數,即各類中聚錯的樣本數的和;(2)運行時間:即聚類整個過程所耗費的時間,單位為s;(3)平均准確度:設原數據集有k個類,用ci表示第i類,ni為ci中樣本的個數,mi為聚類正確的個數,則mi/ni為第i類中的精度,則平均精度為:
3.3 試驗結果分析
四種聚類演算法中,在運行時間及准確度方面綜合考慮,k-means和FCM相對優於其他。但是,各個演算法還是存在固定缺點:k-means聚類演算法的初始點選擇不穩定,是隨機選取的,這就引起聚類結果的不穩定,本實驗中雖是經過多次實驗取的平均值,但是具體初始點的選擇方法還需進一步研究;層次聚類雖然不需要確定分類數,但是一旦一個分裂或者合並被執行,就不能修正,聚類質量受限制;FCM對初始聚類中心敏感,需要人為確定聚類數,容易陷入局部最優解;SOM與實際大腦處理有很強的理論聯系。但是處理時間較長,需要進一步研究使其適應大型資料庫。
聚類分析因其在許多領域的成功應用而展現出誘人的應用前景,除經典聚類演算法外,各種新的聚類方法正被不斷被提出。
Ⅲ 非監督模式識別的經典方法是聚類,聚類的三個要點是什麼
第一,聚類分析是一種無監督學習的方法。
第二,聚類的對象是沒有分類標記的訓練樣本。
第三,聚類的目的是將數據集劃分為若干個互不相交的子集。
Ⅳ 什麼是聚類分析聚類演算法有哪幾種
聚類分析是分類演算法中的一種,是無監督的,不需要訓練。
聚類演算法分為:硬聚類演算法和軟聚類演算法,硬聚類中最經典的是K均值聚類演算法,就是大家所說的K-means演算法,軟聚類演算法中最經典的是模糊C均值聚類演算法,就是FCM。後續的一些聚類演算法都是在這兩種上改進的
Ⅳ 用於數據挖掘的聚類演算法有哪些,各有何優勢
聚類方法的分類,主要分為層次化聚類演算法,劃分式聚類演算法,基於密度的聚類演算法,基於網格的聚類演算法,基於模型的聚類演算法等。
而衡量聚類演算法優劣的標准主要是這幾個方面:處理大的數據集的能力;處理任意形狀,包括有間隙的嵌套的數據的能力;演算法處理的結果與數據輸入的順序是否相關,也就是說演算法是否獨立於數據輸入順序;處理數據雜訊的能力;是否需要預先知道聚類個數,是否需要用戶給出領域知識;演算法處理有很多屬性數據的能力,也就是對數據維數是否敏感。
.聚類演算法主要有兩種演算法,一種是自下而上法(bottom-up),一種是自上而下法(top-down)。這兩種路徑本質上各有優勢,主要看實際應用的時候要根據數據適用於哪一種,Hierarchical methods中比較新的演算法有BIRCH主要是在數據體量很大的時候使用;ROCK優勢在於異常數據抗干擾性強……
關於數據挖掘的相關學習,推薦CDA數據師的相關課程,課程以項目調動學員數據挖掘實用能力的場景式教學為主,在講師設計的業務場景下由講師不斷提出業務問題,再由學員循序漸進思考並操作解決問題的過程中,幫助學員掌握真正過硬的解決業務問題的數據挖掘能力。這種教學方式能夠引發學員的獨立思考及主觀能動性,學員掌握的技能知識可以快速轉化為自身能夠靈活應用的技能,在面對不同場景時能夠自由發揮。點擊預約免費試聽課。
Ⅵ 一種面向高維數據的集成聚類演算法
一種面向高維數據的集成聚類演算法
聚類集成已經成為機器學習的研究熱點,它對原始數據集的多個聚類結果進行學習和集成,得到一個能較好地反映數據集內在結構的數據劃分。很多學者的研究證明聚類集成能有效地提高聚類結果的准確性、魯棒性和穩定性。本文提出了一種面向高維數據的聚類集成演算法。該方法針對高維數據的特點,先用分層抽樣的方法結合信息增益對每個特徵簇選擇合適數量比較重要的特徵的生成新的具代表意義的數據子集,然後用基於鏈接的方法對數據子集上生成的聚類結果進行集成.最後在文本、圖像、基因數據集上進行實驗,結果表明,與集成前的K均值聚類演算法及基於鏈接的聚類集成演算法相比,該方法能有效的改善聚類結果。
引 言
聚類分析又稱群分析,是根據「物以類聚」的道理對樣品或指標進行分類的一種多元統計分析方法。它是一個將數據分到不同類或者簇的過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是機器學習、模式識別的一個最重要的研究方向之一,它是了解數據集的結構的一種最重要的手段,並已經成功的應用於數據挖掘、信息檢索、語音識別、推薦系統等領域。
現實世界中的數據集具有各種形狀和結構,不存在哪一種單一的演算法對任何數據集都表現的很好[3],沒有一種聚類演算法能准確揭示各種數據集所呈現出來的多種多樣的形狀和簇結構,每一種聚類演算法都有其優缺點,對於任何給定的數據集,使用不同的演算法都會有不同的結果,甚至對於同一種演算法給定不同的參數都會有不同的聚類結果,自然分組概念內在的不明確性決定了沒有一個通用的聚類演算法能適用於任何數據集的聚類問題。此外,類存在多樣性的特點,類具有不同的形狀、大小、密度,而且類之間往往是相互重疊的,這樣的問題在高維數據中更加明顯,因為不相關的或者冗餘的特徵會使類的結構更加不明顯。K均值演算法[5]是一種應用廣泛的最經典的聚類演算法之一,它的特點之一就是隨機選取初始的聚類中心,如果選取的中心點不同,聚類結果就可能產生很大的差異。K均值聚類演算法對初始中心點的依賴性,導致K均值演算法的聚類結果不穩定。在這種情況下,聚類集成應運而生,許多學者在這個領域進行了深入的研究。
聚類集成的目的在於結合不同聚類演算法的結果得到比單個聚類演算法更優的聚類。對聚類集體中的成員聚類的問題成為一致性函數問題,或叫做集成問題。很多學者證實通過聚類集成可以有效的提高像K均值聚類這些單一聚類演算法的准確性、魯棒性和穩定性.在現有的研究中,產生基聚類結果的方法有:
(1)使用同一種聚類演算法,每次運行使用不同的參數和隨機初始化;
(2)使用不同的聚類演算法,如K均值產生多個不同的聚類;
(3)對數據集的子集聚類,子集通過不同采樣像bagging、Sub-sampling等方法獲得;
(4)在數據集的不同特徵子集或在數據集的不同子空間的投影上聚類得到不同聚類結果構成聚類集體。我們的方法主要是對第四種聚類集成問題進行了深入研究,在數據集的不同子集上進行集成分析。對於高維數據來說,數據點為單位劃分仍存在維數災難的問題,維數災難可能會引發這種現象,一個給定數據點與離它最近點的距離比與離它最遠的數據點的距離近,所以我們引入同樣的數據點但基於不同的特徵子集就可能會避免這種問題。生成基聚類結果以後就是設計一致性函數對聚類結果集成,就是將聚類成員進行合並,得到一個統一的聚類結果。目前存在很多一致性函數,常用的有投票法、超圖劃分、基於共協矩陣的證據積累、概率積累等等,我們在文章中用了文獻[1]中的方法,它是一種基於鏈接的方法。常規的集成方法往往基於一個由基聚類結果即這些數據基聚類結果內部的關系生成,忽略了這些結果之間的關系,所以Iam-on等利用簇之間的相似度來精煉集成信息矩陣。在高維數據中,我們將數據集的局部特徵子集用作聚類成員與基於鏈接的集成聚類方法有效結合,解決了高維數據進行集成聚類的問題。
本文組織如下:第2節對聚類集成做了一個概述,並針對於高維數據這一特殊數據集提出了自己的集成聚類方法。第3節是本文的核心部分,它講述了對特徵進行分層抽樣,並基於信息增益抽取出比較重要的具有代表意義的局部特徵子集的過程,此外對傳統的K均值演算法的具體過程進行了簡要的描述,然後引出了分層抽樣的概念,用分層抽樣的思想確定我們選擇的特徵的數目,最後給出了信息增益的定義,通過這個指標最終確定我們在每一個聚類簇中選擇的特徵;最後把我們前面的工作抽取局部特徵子集與基於鏈接的方法結合起來形成了自己的演算法描述;第4節首先對8個實際數據集包括文本、圖像、基因數據進行描述,然後在這八個數據集上比較和分析了我們的方法(SSLB)和傳統K均值演算法和基於鏈接的聚類集成演算法(LB)在四個聚類評價標准上的聚類性能;第5節是對全文的總結。
相關工作
聚類集成概述
聚類分析是按照某種相似性測度將多維數據分割成自然分組或簇的過程。聚類演算法很多,但是沒有一個萬能的聚類演算法能用於任何聚類問題,其原因在自然分組概念的內在不明確性以及類可以有不同的形狀、大小、密度等,這個在高維數據中的問題更為明顯,那些不相關的特徵和冗餘的特徵會使類結構更加模糊。單個聚類存在的這些問題,引發了學者們對聚類集成的研究。首先由Strehl[12]等人提出」聚類集成」的概念,而後Gionis[13]等人也給出該問題的描述。楊草原等給聚類集成下了一個定義,認為聚類集成就是利用經過選擇的多個聚類結果找到一個新的數據(或對象)劃分,這個劃分在最大程度上共享了所有輸入的聚類結果對數據或對象集的聚類信息。
聚類集成的符號化形式為:假設數據集X有n個實例,X={x1,x2,…,xn},首先對數據集X使用M次聚類演算法,得到M個聚類,?={?1,?2,…,?M}(下面稱為聚類成員),其中?i(i=1,2,…,M)為第i次聚類演算法得到的聚類結果。然後用一致性函數T對?的聚類結果進行集成得到一個新的數據劃分?』[1].
摘 要
圖1聚類集成的基本過程。首先對數據集使用不同的聚類演算法得到不同的劃分,然後對這些劃分用一致性函數合並為一個聚類結果P』
由上面的聚類集成過程可知,對一個數據集進行聚類集成,主要有兩個階段,第一個階段是基聚類器對原始數據進行聚類,得到基聚類結果。第二個階段是基聚類結果集成,根據聚類集成演算法對前一個階段採集的基聚類結果進行處理,使之能夠最大限度地分享這些結果,從而得到一個對原始數據最好的聚類集成結果。
面向高維數據的集成聚類
信息時代互聯網成為最大的信息聚集地,像Web文檔、交易數據、基因表達數據、用戶評分數據等等,這些成為聚類分析的主要研究對象,而這些數據的維度成千上萬,甚至更高,這給聚類分析帶來了極大的挑戰。高維數據的聚類集成面臨更多的問題。
傳統的集成學習的第一步是產生多個基聚類結果,這一階段是對數據集或者其子集反復進行聚類演算法。現有的方法主要有:使用一個聚類演算法,每次運行設置不同的參數和隨機初始化;使用不同的聚類演算法;對數據集的子集進行聚類;將數據集的特徵空間投影到數據子空間。基聚類結果生成以後就開始對基聚類結果進行集成。一致性函數是一個函數或者是一個方法,它將聚類成員進行集成,得到一個統一的聚類結果。目前存在許多一致性函數,它大致可以分為:
(1)基於成對相似性的方法,它主要考慮的是所有的數據點對的關系的重現、
(2)基於超圖劃分的方法和(3)基於特徵的方法,它是把聚類的集成轉換為類標的集成。
針對高維數據的特點,我們選擇基於相似性的方法對聚類結果進行集成,凝聚層次聚類演算法是最經典的基於相似性方法,我們用了文獻中的方法,他把SL凝聚聚類演算法用來生成最終的劃分。但是基於成對相似度的集成的過程都是一個比較粗糙的過程,集成的結果往往基於一個由基聚類結果即這些數據劃分內部的關系生成,忽略了這些劃分結果之間的關系,所以它使用了Iam-on[17]等利用簇之間的相似度來精煉集成信息矩陣,實驗證明這種方法在很多數據集上表現很好,不僅增強了聚類穩定性也改善了聚類性能。由於我們研究的對象是高維數據,考慮到需要聚類的對象的維度很大,對完整的對象聚類一定會增加聚類演算法的運行開銷。這對基於鏈接的方法性能有所影響,因此,我們考慮對特徵空間的局部特徵子集進行聚類得到結果。經過上面的分析,我們引出自己的方法。我們對其中的基本步驟進行細化,我們的方法示意圖如下:
我們方法的示意圖,對聚類集成的過程進行了細化,描述了每一個過程的輸入和輸出
我們的方法就是針對高維數據的特點,對傳統的聚類集成進行了一些改進,我們首先用前面提到的K均值演算法對特徵進行聚類,然後用信息增益來衡量不同簇中的特徵的重要程度,而每個特徵簇中的所抽取特徵的數目nh由上面stratifiedsampling[18]的方法得到,最後利用信息增益選擇top(nh)的特徵。根據上述方法對特徵進行降維,得到了最具代表的數據子集。數據子集的生成,變換K均值演算法的k值,取k=2,3…√N(N為數據點的數目)生成不同的具有差異的數據子集,然後沿用[1]中的方法進行聚類集成,最後把這√N-2次的聚類結果進行最後一次集成得到我們最終的聚類結果。基於局部特徵子集的生成方法內容在下一章詳細講述。
基於局部特徵的數據子集生成方法
集成時使用哪種方法產生聚類成員一般從兩個方面來考慮,一個是集成者的目的,一個是數據集的結構。在機器學習的實際應用中,我們面對的絕大多數都是高維數據。數據集的特徵數量往往較多,可能存在不相關的特徵,特徵之間可能存在相互依賴,容易導致分析特徵、訓練模型的時間變長,甚至引發「維度災難」,模型復雜推廣能力下降。所以我們採用基於局部特徵的數據子集生成方法。圖3是我們生成局部特徵的數據子集的示意圖:
Fig. 3 The basic process of the generation of feature subset
首先我們用傳統的K均值演算法對數據集的特徵進行聚類,然後對於不同的特徵簇我們用信息增益來衡量它的重要性,不同的特徵簇中我們應該篩選多少特徵簇呢?分層抽樣很好的解決了這個問題,分層抽樣的思想是計算每個實例之間的相關性(用標准差、方差來衡量),它認為類中的實例相關性比較大的可以選擇較多的樣本來代替當前類,類中相關性較小的就少選擇一些實例來代替當前類的樣本,根據分層抽樣中計算出的特徵簇的數目再利用信息增益這種衡量重要性的標准進行篩選後就得到了局部的特徵子集。下面具體論述基於局部特徵的數據子集生成方法中的關鍵技術。
k均值演算法
K均值演算法[5]是MacDueen提出的一個著名的聚類學習演算法。它根據相似度距離迭代的更新向量集的聚類中心,當聚類中心不再變化或者滿足某些停止條件,則停止迭代過程得到最終的聚類結果。K均值演算法的具體步驟為:
(1) 隨機選擇k個數據項作為聚類中心;
(2) 根據相似度距離公式,將數據集中的每一項數據分配到離他最近的聚類中去;
(3) 計算新的聚類中心;
(4) 如果聚類中心沒有發生改變,演算法結束;否則跳轉到第(2)步.
我們使用K均值演算法對數據集的特徵進行聚類,我們通過選取不同的k值進行特徵聚類,然後用後面的分層抽樣進行選擇得到差異度比較明顯的局部特徵的數據子集作為後面的聚類集成的輸入。
信息增益
對特徵進行聚類後得到多個特徵團,如何對它們進行特徵選擇,如何度量特徵團中的特徵的重要程度是我們面臨的問題。信息增益是資訊理論中的一個重要概念,它被廣泛應用在機器學習、數據挖掘領域,計算信息增益是針對一個特徵項而言的,它通過統計某一個特徵項t在類別C中出現與否的實例數來計算特徵項t對類別C的信息增益,定義為:
其中P(ci)表示ci類實例在數據集中出現的概率,p(t)表示數據集中包含特徵項t的實例數,p(ci|t)表示實例包含特徵項t時屬於ci類的條件概率,p(t ? )表示數據集中不包含特徵項t的實例數,p(c_i |t ? )表示實例不包含特徵項t時屬於ci類的概率,m為類別數。信息增益考慮特徵與類別信息的相關程度,認為信息增益值越大,其貢獻越大。我們的方法採用信息增益來度量特徵簇中的特徵的重要程度。
分層抽樣(Stratified sampling)
在對特徵進行聚類後對特徵進行選擇,我們採用信息增益來度量每個特徵簇中的特徵的重要程度。但是每個特徵簇我們選擇多少個特徵比較合適,這是分層抽樣解決的問題。抽樣的目的是在不影響聚類效果的情況下在已經分好或者聚好類的實例中,從每個類中抽取部分的樣本來代替整個類。Stratifiedsampling[18]方法遵循的原則是:計算每個實例之間的相關性(用標准差、方差來衡量),我們認為類中的實例相關性比較大的可以選擇較小的樣本來代替當前類,類中相關性較小的就多選擇一些實例來代替當前類的樣本。這個方法就是確定每個類中篩選的實例的數目。此方法中每個類的樣本數目為:
其中nh是第h類應該抽取的實例數。n是預計抽取的總樣本數,Nh是在總體樣本中第h類的實例數,?h是第h類的標准差。通過(1)式我們就可以得到每個類中應該選擇的實例數目。提出這中抽樣方法的學者還對它的精確度、置信區間進行了分析,證明了它在不影響學習效果的情況下對可以對數據降維,提高學習效率。
在本文的方法中,我們先用前面提到的k均值演算法對特徵進行聚類,然後用信息增益來衡量不同簇中的特徵的重要程度,而每個特徵簇中的所抽取特徵的數目nh由上面stratifiedsampling的方法得到,最後利用信息增益選擇top(nh)的特徵。根據上述方法對特徵進行降維,得到了最具代表的數據子集,進行後面的數據集的聚類集成。
實驗結果與分析
實驗數據集
本文選用了8個數據集,包括文獻[1]中的兩個數據集:一個人工數據集Four-Gaussian[19]和一個被用來做基因數據聚類的真實數據集Leukemiadataset[20],另外就是六個真實數據集包括兩個文本數據集,兩個圖像數據集,兩個基因數據。表1給出了這些數據集的名稱以及數據的樣本、屬性、類別數量。
Table 1 Number of instance, features and classes of datasets
實驗分析
實驗中,本文對比了三種分類演算法包括傳統的k-means演算法,文獻[1]中的LB演算法以及我們實現的演算法SSLB。聚類性能通過下面四個評價指標來衡量,表2給出了這四個評價指標[1]的具體描述:
Table 2 Name of measures, formulas
K為聚類結果中簇的數目,nk是屬於第k個簇的數據點數目,d(xi,xj)是數據點xi和xj的距離,N是數據集中數據點的總數。n11是指在兩個劃分?』(正確的劃分)和?中出現在相同簇中的數據線對的個數,n00是指在兩個劃分?』、?中中出現在不同簇中的數據點對的個數,n01表示在劃分?中屬於不同簇在另一個劃分?』 中屬於同一個簇的數據點對數目,n10表示在劃分?』中屬於不同簇在另一個劃分?中屬於同一個簇的數據點對數目。
其中CP衡量的是在同一個簇中,所有數據點的數據點對的平均距離,越小越好。CA衡量的是與已經的類標相比,聚類正確的數據點數目,CA的范圍是從0到1,越大越好。RI這個指標衡量存在於相同和不同簇中的點對數目,RI的值從0到1,越大越好,AR也是越大越好。
本文對這8個數據集進行聚類集成,聚類成員由k均值對特徵聚類然後分層抽樣產生的局部特徵子集獲得,聚類中心的個數為數據集的類別數。為了增加實驗的可靠性,所有的實驗結果為10次結果的平均值。對比試驗採用原始的K均值聚類演算法、基於鏈接(LB)的方法,與我們實現的方法(SSLB)進行比較。在表3中,我們把關鍵值都突出的表現出來,在這8個數據集上,SSLB有在四個評價指標上都表現出比較大的優勢。
根據表四,比較集成前的K均值演算法、LB方法和SSLB方法,可以看出,在數據集Four-Gaussian上,SSLB在四種評價指標上都可以看出,其聚類性能明顯優於集成前的K均值演算法和LB聚類集成演算法。在兩種文本數據集Tr31和Tr41上,我們的方法優勢不是很明顯,但是在前兩個指標CP和CA上還是明顯好於集成前的K均值聚類,與LB演算法在這兩個指標上性能相當,而且在這兩個文本數據上,在RI和AR上集成前的K均值演算法與LB和SSLB方法相比都存在優勢。在兩個圖像數據集上,SSLB方法在CP這個評價指標上都遠遠好於集成前的K均值聚類演算法和LB演算法,但是在第二個評價指標和第三個評價指標上就比LB演算法差一點。在基因數據Colon上SSLB再第一個聚類評價指標上仍然存在很大的優勢,在聚類的准確率上,我們的方法與LB方法相當,但是明顯優於集成前的K均值演算法。在基因數據TOX-171上,我們的方法獲得了最好的聚類集成性能,在四個聚類評價指標上,都遠遠好於集成前的K均值演算法和LB演算法。
下面我們逐一在這四個聚類評價標准比較集成前的K均值演算法、SSLB演算法和LB演算法。圖四、圖五、圖六、以及圖七分別描述了集成前的K均值聚類、LB以及我們的方法SSLB在CP、CA、RI、AR上的表現。
聚類評價指標CP衡量的是在同一個簇中,所有數據點的數據點對的平均距離,越小越好。通過圖四可以看出,在所有數據集上,我們的演算法SSLB都存在很大的優勢,比集成前的K-means演算法以及LB演算法在CP這個指標上都好,此外還能看出CP在不同的數據集上的差異還是比較大的,在Four-Gaussian上明顯比其他數據集上差。
聚類評價指標CA衡量的是與已知的類標相比,聚類正確的數據點數目占總的數據點數目的比例,CA的范圍是從0到1,越大越好。從圖五可以看出我們的演算法在數據集Four-Gaussian、Tr41、Colon和TOX-171上的聚類精度比集成前的K均值演算法以及LB演算法都要好,但是在Tr31以及兩個圖像數據集上的優勢不大,這這個現象值得我們關注,也是我們接下來會研究的工作。
聚類評價指標RI衡量的是存在於相同和不同簇中的點對數目,RI的值從0到1,越大越好。從圖六可以看出我們的演算法在人工數據集Four-Gaussian以及幾個基因數據集上的表現比較突出、但是在其他數據集上就處於弱勢,而且可以看出集成前的K均值演算法在所有的數據集在RI上的表現都比較好。
聚類評價指標AR衡量的也是存在於相同和不同簇中的點對數目,AR的值從0到1,越大越好。從圖七可以看出我們的演算法SSLB在大多數數據集上存在著優勢,但是在數據集Leukemia、Tr41、Colon上的超過了集成前的K均值演算法和我們的演算法。這些現象和結果都是我們接下來的研究的重點。
綜上所述,在幾乎所有數據集上,在所有的聚類評價指標上我們的聚類集成演算法SSLB好於集成前K均值演算法的聚類效果,而且在大多數數據集上,我們的演算法比LB演算法存在一定的優勢,尤其是在基因數據上的表現較為突出。但是在有的數據集上優勢也不夠明顯,我們要繼續分析這些數據結構上的特點和我們的演算法可能存在的問題,這也是我們接下來研究的方向。
結 論
本文提出了一種面向高維數據的集成聚類方法。針對高維數據的特點,對傳統的聚類集成進行了一些改進,首先對特徵聚類然後基於分層抽樣抽取特徵子集,抽取到最具代表性的特徵子集後用基於鏈接的方法進行聚類集成。並在8個實際數據集包括文本、圖像、基因數據上進行實驗,在這8個數據集上分析和比較了我們的方法和集成前的K均值演算法以及基於鏈接的聚類集成演算法在四個評價標准上的聚類性能,能夠看出我們的演算法在聚類性能上有一定改善。
Ⅶ 聚類演算法有哪些分類
聚類演算法的分類有:
1、劃分法
劃分法(partitioning methods),給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K小於N。而且這K個分組滿足下列條件:
(1) 每一個分組至少包含一個數據紀錄;
(2)每一個數據紀錄屬於且僅屬於一個分組(注意:這個要求在某些模糊聚類演算法中可以放寬);
2、層次法
層次法(hierarchical methods),這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。具體又可分為「自底向上」和「自頂向下」兩種方案。
例如,在「自底向上」方案中,初始時每一個數據紀錄都組成一個單獨的組,在接下來的迭代中,它把那些相互鄰近的組合並成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。
3、密度演算法
基於密度的方法(density-based methods),基於密度的方法與其它方法的一個根本區別是:它不是基於各種各樣的距離的,而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。
4、圖論聚類法
圖論聚類方法解決的第一步是建立與問題相適應的圖,圖的節點對應於被分析數據的最小單元,圖的邊(或弧)對應於最小處理單元數據之間的相似性度量。因此,每一個最小處理單元數據之間都會有一個度量表達,這就確保了數據的局部特性比較易於處理。圖論聚類法是以樣本數據的局域連接特徵作為聚類的主要信息源,因而其主要優點是易於處理局部數據的特性。
5、網格演算法
基於網格的方法(grid-based methods),這種方法首先將數據空間劃分成為有限個單元(cell)的網格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快,通常這是與目標資料庫中記錄的個數無關的,它只與把數據空間分為多少個單元有關。
代表演算法有:STING演算法、CLIQUE演算法、WAVE-CLUSTER演算法;
6、模型演算法
基於模型的方法(model-based methods),基於模型的方法給每一個聚類假定一個模型,然後去尋找能夠很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函數或者其它。它的一個潛在的假定就是:目標數據集是由一系列的概率分布所決定的。
通常有兩種嘗試方向:統計的方案和神經網路的方案。
(7)聚類演算法識別行為擴展閱讀:
聚類演算法的要求:
1、可伸縮性
許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好;但是,一個大規模資料庫可能包含幾百萬個對象,在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。
我們需要具有高度可伸縮性的聚類演算法。
2、不同屬性
許多演算法被設計用來聚類數值類型的數據。但是,應用可能要求聚類其他類型的數據,如二元類型(binary),分類/標稱類型(categorical/nominal),序數型(ordinal)數據,或者這些數據類型的混合。
3、任意形狀
許多聚類演算法基於歐幾里得或者曼哈頓距離度量來決定聚類。基於這樣的距離度量的演算法趨向於發現具有相近尺度和密度的球狀簇。但是,一個簇可能是任意形狀的。提出能發現任意形狀簇的演算法是很重要的。
4、領域最小化
許多聚類演算法在聚類分析中要求用戶輸入一定的參數,例如希望產生的簇的數目。聚類結果對於輸入參數十分敏感。參數通常很難確定,特別是對於包含高維對象的數據集來說。這樣不僅加重了用戶的負擔,也使得聚類的質量難以控制。
5、處理「雜訊」
絕大多數現實中的資料庫都包含了孤立點,缺失,或者錯誤的數據。一些聚類演算法對於這樣的數據敏感,可能導致低質量的聚類結果。
6、記錄順序
一些聚類演算法對於輸入數據的順序是敏感的。例如,同一個數據集合,當以不同的順序交給同一個演算法時,可能生成差別很大的聚類結果。開發對數據輸入順序不敏感的演算法具有重要的意義。
Ⅷ 聚類演算法有什麼作用講的是什麼
聚類的用途是很廣泛的。
在商業上,聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來,並且概括出每一類消費者的消費模式或者說習慣。它作為數據挖掘中的一個模塊,可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息,並且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;並且,聚類分析也可以作為數據挖掘演算法中其他分析演算法的一個預處理步驟。
Ⅸ 如何對用戶進行聚類分析
需要搜集用戶的哪些特徵?
聚類分析變數選擇的原則是:在哪些變數組合的前提,使得類別內部的差異盡可能的小,即同質性高,類別間的差異盡可能的大,即同質性低,並且變數之間不能存在高度相關。
常用的用戶特徵變數有:
①
人口學變數:如年齡、性別、婚姻、教育程度、職業、收入等。通過人口學變數進行分類,了解每類人口的需求有何差異。
②
用戶目標:如用戶為什麼使用這個產品?為什麼選擇線上購買?了解不同使用目的的用戶的各自特徵,從而查看各類目標用戶的需求。
③
用戶使用場景:用戶在什麼時候,什麼情況下使用這個產品?了解用戶在各類場景下的偏好/行為差異。
④
用戶行為數據:如使用頻率,使用時長,客單價等。劃分用戶活躍等級,用戶價值等級等。
⑤
態度傾向量表:如消費偏好,價值觀等,看不同價值觀、不同生活方式的群體在消費取向或行為上的差異。
需要多少樣本量?
沒有限制,通常情況下與實際應用有關,如果非要加一個理論的限制,通常認為,樣本的個數要大於聚類個數的平方。
①如果需要聚類的數據量較少(<100),那麼三種方法(層次聚類法,K-均值聚類法,兩步聚類法)都可以考慮使用。優先考慮層次聚類法,因為層次聚類法產生的樹狀圖更加直觀形象,易於解釋,並且,層次聚類法提供方法、距離計算方式、標准化方式的豐富程度也是其他兩種方法所無法比擬的。
②如果需要聚類的數據量較大(>1000),應該考慮選擇快速聚類別法或者兩步聚類法進行。
③如果數據量在100~1000之間,理論上現在的計算條件是可能滿足任何聚類方法的要求的,但是結果的展示會比較困難,例如不可能再去直接觀察樹狀圖了。
應用定量方法還是定性方法?
聚類分析是一種定量分析方法,但對聚類分析結果的解釋還需要結合定性資料討論。
1.聚類分析的定義與用途
聚類分析(Cluster Analysis)是一種探索性的數據分析方法,根據指標/變數的數據結構特徵,對數據進行分類,使得類別內部的差異盡可能的小,即同質性高,類別間的差異盡可能的大,即同質性低。
2.聚類分析的方法
①層次聚類法(Hierarchical),也叫系統聚類法。既可處理分類變數,也可處理連續變數,但不能同時處理兩種變數類型,不需要指定類別數。聚類結果間存在著嵌套,或者說層次的關系。
②K-均值聚類法(K-Means Cluster),也叫快速聚類法。針對連續變數,也可處理有序分類變數,運算很快,但需要指定類別數。K-均值聚類法不會自動對數據進行標准化處理,需要先自己手動進行標准化分析。
③兩步聚類法(Two-Step Cluster):可以同時處理分類變數和連續變數,能自動識別最佳的類別數,結果比較穩定。如果只對連續變數進行聚類,描述記錄之間的距離性時可以使用歐氏(Euclidean)距離,也可以使用對數似然值(Log-likelihood),如果使用前者,則該方法和傳統的聚類方法並無太大區別;但是若進行聚類的還有離散變數,那麼就只能使用對數似然值來表述記錄間的差異性。當聚類指標為有序類別變數時,Two-Step Cluster出來的分類結果沒有K-means cluster的明晰,這是因為K-means演算法假定聚類指標變數為連續變數。
3.聚類分析的步驟
①確定研究目的:研究問題關注點有哪些、是否有先驗分類數…
②問卷編制:態度語句李克特項目、有序類別…
③確定分析變數:問卷變數的類型,連續or分類,有序類別or無序類別、是否納入後台數據,變數間相關性低…
④聚類分析:聚類分析方法選擇、數據標准化方法、聚類類別數確定…
⑤結果檢驗:類別間差異分析、是否符合常理…
⑥聚類結果解釋:類別的命名、類別間的差異、結合定性資料解釋…
Ⅹ 聚類演算法有哪幾種
聚類分析計算方法主要有: 層次的方法(hierarchical method)、劃分方法(partitioning method)、基於密度的方法(density-based method)、基於網格的方法(grid-based method)、基於模型的方法(model-based method)等。其中,前兩種演算法是利用統計學定義的距離進行度量。
k-means 演算法的工作過程說明如下:首先從n個數據對象任意選擇 k 個對象作為初始聚類中心;而對於所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然 後再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標准測度函數開始收斂為止。一般都採用均方差作為標准測度函數. k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
其流程如下:
(1)從 n個數據對象任意選擇 k 個對象作為初始聚類中心;
(2)根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;並根據最小距離重新對相應對象進行劃分;
(3)重新計算每個(有變化)聚類的均值(中心對象);
(4)循環(2)、(3)直到每個聚類不再發生變化為止(標准測量函數收斂)。
優點: 本演算法確定的K個劃分到達平方誤差最小。當聚類是密集的,且類與類之間區別明顯時,效果較好。對於處理大數據集,這個演算法是相對可伸縮和高效的,計算的復雜度為 O(NKt),其中N是數據對象的數目,t是迭代的次數。
缺點:
1. K 是事先給定的,但非常難以選定;
2. 初始聚類中心的選擇對聚類結果有較大的影響。