聚類演算法貪心演算法_常用的聚類方法有哪幾種

『壹』一文總結聚類分析步驟！

一、聚類

1.准備工作

（1）研究目的

聚類分析是根據事物本身的特性研究個體分類的方法，聚類分析的原則是同一類別的個體有較大相似性，不同類別的個體差異比較大。

（2）數據類型

1）定量：數字有比較意義，比如數字越大代表滿意度越高，量表為典型定量數據。

2）定類：數字無比較意義，比如性別，1代表男，2代表女。

PS： SPSSAU會根據數據類型自動選擇聚類方法。

K-modes聚類：數據類型僅定類時。

2.上傳數據到SPSSAU

登錄賬號後進入SPSSAU頁面，點擊右上角「上傳數據」，將處理好的數據進行「點擊上傳文件」上傳即可。

3.SPSSAU操作

（1）拖拽分析項

1） SPSSAU進階方法→聚類。

2）檢查

檢查分析項是否都在左側分析框中。

3）進行拖拽

（2）選擇參數

聚類個數：聚類個數設置為幾類主要以研究者的研究思路為標准，如果不進行設置，SPSSAU默認聚類個數為3，通常情況下，建議設置聚類數量介於3~6個之間。

標准化：聚類演算法是根據距離進行判斷類別，因此一般需要在聚類之前進行標准化處理，SPSSAU默認是選中進行標准化處理。數據標准化之後，數據的相對大小意義還在（比如數字越大GDP越高），但是實際意義消失了。

保存類別：分析選擇保存『保存類別』，SPSSAU會生成新標題用於標識，也可以右上角「我的數據」處查看到分析後的「聚類類別」。

新標題類似如下：Cluster_********。

4.SPSSAU分析

（1）聚類類別基本情況匯總分析

使用聚類分析對樣本進行分類，使用Kmeans聚類分析方法，從上表可以看出：最終聚類得到4類群體，此4類群體的佔比分別是20.00%, 30.00%, 20.00%, 30.00%。整體來看， 4類人群分布較為均勻，整體說明聚類效果較好。

（2）聚類類別匯總圖分析

上圖可以直觀的看到各個類別所佔百分比，4類群體的佔比分別是20.00%, 30.00%, 20.00%, 30.00%。

（3）聚類類別方差分析差異對比

使用方差分析去探索各個類別的差異特徵，從上表可知：聚類類別群體對於所有研究項均呈現出顯著性(p<0.05),意味著聚類分析得到的4類群體，他們在研究項上的特徵具有明顯的差異性，具體差異性可通過平均值進行對比，並且最終結合實際情況，對聚類類別進行命名處理。

（4）聚類項重要性對比

從上述結果看，所有研究項均呈現出顯著性，說明不同類別之間的特徵有明顯的區別，聚類的效果較好。

（5）聚類中心

5.其它說明

（1）聚類中心是什麼？

聚類中心是聚類類別的中心點情況，比如某類別時年齡對應的聚類中心為20，意味著該類別群體年齡基本在20歲左右。初始聚類中心基本無意義，它是聚類演算法隨機選擇的聚類點，如果需要查看聚類中心情況，需要關注於最終聚類中心。實際分析時聚類中心的意義相對較小，其僅為聚類演算法的計算值而已。

（2）k-prototype聚類是什麼？

如果說聚類項中包括定類項，那麼SPSSAU默認會進行K-prototype聚類演算法（而不是kmeans演算法）。定類數據不能通過數字大小直接分析距離，因而需要使用K-prototype聚類演算法。

（3）聚類分析時SSE是什麼意思？

在進行Kmeans聚類分析時SPSSAU默認輸出誤差平方和SSE值，該值可用於測量各點與中心點的距離情況，理論上是希望越小越好，而且如果同樣的數據，聚類類別越多則SSE值會越小（但聚類類別過多則不便於分析）。

SSE指標可用於輔助判斷聚類類別個數，建議在不同聚類類別數量情況下記錄下SSE值，然後分析SSE值的減少幅度情況，如果發現比如從3個聚類到4個類別時SSE值減少幅度明顯很大，那麼此時選擇4個聚類類別較好。

二、分層聚類

1.准備工作

（1）研究目的

從分析角度上看，聚類分析可分為兩種，一種是按樣本（或個案）聚類，此類聚類的代表是K-means聚類方法；另外一種是按變數（或標題）聚類，此類聚類的代表是分層聚類。

（2）數據類型

2.上傳數據到SPSSAU

登錄賬號後進入SPSSAU頁面，點擊右上角「上傳數據」，將處理好的數據進行「點擊上傳文件」上傳即可。

3.SPSSAU操作

（1）拖拽分析項

1） SPSSAU進階方法→分層聚類。

2）檢查

檢查分析項是否都在左側分析框中。

3）進行拖拽

（2）確定參數

SPSSAU會默認聚類為3類並且呈現表格結果，如果希望更多的類別個數，可自行進行設置。

4.SPSSAU分析

（1）聚類項描述分析

上表格展示總共8個分析項（即8個裁判數據）的基本情況，包括均值，最大或者最小值，中位數等，以便對於基礎數據有個概括性了解。整體上看，8個裁判的打分基本平均在8分以上。

（2）聚類類別分布表分析

總共聚類為3個類別，以及具體分析項的對應關系情況。在上表格中展示出來，上表格可以看出：裁判8單獨作為一類；裁判5，3，7這三個聚為一類；以及裁判1，6，2，4作為一類。

（PS：聚類類別與分析項上的對應關系可以在上表格中得到，同時也可以查看聚類樹狀圖得出更多信息。至於聚類類別分別應該叫做什麼名字，這個需要結合對應有關系情況，自己單獨進行命名。）

（3）聚類樹狀圖分析

上圖為聚類樹狀圖的展示，聚類樹狀圖是將聚類的具體過程用圖示法手法進行展示；最上面一行的數字僅僅是一個刻度單位，代表相對距離大小；一個結點表示一次聚焦過程。

樹狀圖的解讀上，建議單獨畫一條垂直線，然後對應查看分成幾個類別，以及每個類別與分析項的對應關系。比如上圖中，紅色垂直線最終會拆分成3個類別；第1個類別對應裁判8；第2個類別對應裁判5，3，7；第3個類別對應裁判1，6，2，4。

如果是聚為四類；從上圖可看出，明顯的已經不再合適。原因在於垂直線不好區分成四類。也即說明有2個類別本應該在一起更合適（上圖中的裁判1與6/2/4）；但是如果分成4類，此時裁判1會單獨成一類。所以畫垂直線無法區分出類別。因而綜合分析來看，最終聚類為3個類別最為適合。

當然在分析時也可以考慮分成2個類別，此時只需要對應將垂直線移動即可。

5.其它說明

（1）針對分層聚類，需要注意以下幾點：

（2）什麼時候做因子分析後再做聚類分析？

如果題項較多，可先做因子分析，得到每個維度（因子）的數據，再進行聚類。

三、總結

聚類分析廣泛的應用於自然科學、社會科學等領域。在分析時可以比較多次聚類結果，綜合選擇更適合的方案。

以上就是聚類分析步驟匯總，更多干貨請前往官網查看！

『貳』用於數據挖掘的聚類演算法有哪些

一部專著的篇幅。即使是做綜述性的介紹，一篇三五十頁的論文也可以寫成了。所以我一直想怎麼能從頭到尾把這個問題logically串連起來。正好這段時間我在修改我做的交易策略裡面關於聚類的部分。就我的理解而言，如果想全面的了解聚類演算法並對其進行區別和比較的話，最好能把聚類的具體演算法放到整個聚類分析的語境中理解。那我接下來主要談談我的理解，就不搬弄教科書里的概念了。相似性衡量（similarity measurement）相似性衡量又可以細分為直接法和間接：直接法是直接求取input data的相似性，間接法是求取data中提取出的features的相似性。但無論是求data還是feature的相似性，方法都是這么幾種：距離。距離主要就是指Minkovski距離。這個名字雖然聽起來陌生，但其演算法就是Lp norm的演算法，如果是L1 norm，那就是絕對值/曼哈頓距離（Manhattan distance）；如果是L2 norm，那就是著名的歐式距離（Euclidean distance）了，也是應用最廣泛的；如果，supremum距離，好像也有叫切比雪夫距離的，但就很少有人用了。另外，還有Mahalanobis距離，目前來看主要應用於Gaussian Mixture Model（GMM），還有Lance&Williams距離等等，但幾乎沒見過求距離的時候會專門用這個的。相似系數。主要有夾角餘弦和相關系數。相關系數的應用也非常廣泛，其主要優勢是它不受原線性變換的影響，而且可以輕松地轉換為距離，但其運算速度要比距離法慢得多，當維數很高的時候。

『叄』聚類的計算方法

傳統的聚類分析計算方法主要有如下幾種：
1、劃分方法(partitioning methods)
給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K<N。而且這K個分組滿足下列條件：（1）每一個分組至少包含一個數據紀錄；（2）每一個數據紀錄屬於且僅屬於一個分組（注意：這個要求在某些模糊聚類演算法中可以放寬）；對於給定的K，演算法首先給出一個初始的分組方法，以後通過反復迭代的方法改變分組，使得每一次改進之後的分組方案都較前一次好，而所謂好的標准就是：同一分組中的記錄越近越好，而不同分組中的紀錄越遠越好。使用這個基本思想的演算法有：K-MEANS演算法、K-MEDOIDS演算法、CLARANS演算法；
大部分劃分方法是基於距離的。給定要構建的分區數k，劃分方法首先創建一個初始化劃分。然後，它採用一種迭代的重定位技術，通過把對象從一個組移動到另一個組來進行劃分。一個好的劃分的一般准備是：同一個簇中的對象盡可能相互接近或相關，而不同的簇中的對象盡可能遠離或不同。還有許多評判劃分質量的其他准則。傳統的劃分方法可以擴展到子空間聚類，而不是搜索整個數據空間。當存在很多屬性並且數據稀疏時，這是有用的。為了達到全局最優，基於劃分的聚類可能需要窮舉所有可能的劃分，計算量極大。實際上，大多數應用都採用了流行的啟發式方法，如k-均值和k-中心演算法，漸近的提高聚類質量，逼近局部最優解。這些啟發式聚類方法很適合發現中小規模的資料庫中小規模的資料庫中的球狀簇。為了發現具有復雜形狀的簇和對超大型數據集進行聚類，需要進一步擴展基於劃分的方法。
2、層次方法(hierarchical methods)
這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。具體又可分為「自底向上」和「自頂向下」兩種方案。例如在「自底向上」方案中，初始時每一個數據紀錄都組成一個單獨的組，在接下來的迭代中，它把那些相互鄰近的組合並成一個組，直到所有的記錄組成一個分組或者某個條件滿足為止。代表演算法有：BIRCH演算法、CURE演算法、CHAMELEON演算法等；
層次聚類方法可以是基於距離的或基於密度或連通性的。層次聚類方法的一些擴展也考慮了子空間聚類。層次方法的缺陷在於，一旦一個步驟（合並或分裂）完成，它就不能被撤銷。這個嚴格規定是有用的，因為不用擔心不同選擇的組合數目，它將產生較小的計算開銷。然而這種技術不能更正錯誤的決定。已經提出了一些提高層次聚類質量的方法。
3、基於密度的方法(density-based methods)
基於密度的方法與其它方法的一個根本區別是：它不是基於各種各樣的距離的，而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。這個方法的指導思想就是，只要一個區域中的點的密度大過某個閥值，就把它加到與之相近的聚類中去。代表演算法有：DBSCAN演算法、OPTICS演算法、DENCLUE演算法等；
4、基於網格的方法(grid-based methods)
這種方法首先將數據空間劃分成為有限個單元（cell）的網格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快，通常這是與目標資料庫中記錄的個數無關的，它只與把數據空間分為多少個單元有關。代表演算法有：STING演算法、CLIQUE演算法、WAVE-CLUSTER演算法；
很多空間數據挖掘問題，使用網格通常都是一種有效的方法。因此，基於網格的方法可以和其他聚類方法集成。
5、基於模型的方法(model-based methods)
基於模型的方法給每一個聚類假定一個模型，然後去尋找能夠很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函數或者其它。它的一個潛在的假定就是：目標數據集是由一系列的概率分布所決定的。通常有兩種嘗試方向：統計的方案和神經網路的方案。
當然聚類方法還有：傳遞閉包法，布爾矩陣法，直接聚類法，相關性分析聚類，基於統計的聚類方法等。

『肆』常用聚類(K-means,DBSCAN)以及聚類的度量指標：

一年前需要用聚類演算法時，自己從一些sklearn文檔和博客粗略整理了一些相關的知識，記錄在電子筆記里備忘，現在發到網上，當時就整理的就很亂，以後有空慢慢把內容整理、完善，用作備忘。之前把電影標簽信息的聚類結果作為隱式反饋放進SVD++中去訓練，裡面有兩個小例子

利用條件熵定義的同質性度量：
sklearn.metrics.homogeneity_score:每一個聚出的類僅包含一個類別的程度度量。
sklearn.metrics.completeness:每一個類別被指向相同聚出的類的程度度量。
sklearn.metrics.v_measure_score:上面兩者的一種折衷：
v = 2 * (homogeneity * completeness) / (homogeneity + completeness)
可以作為聚類結果的一種度量。
sklearn.metrics.adjusted_rand_score:調整的蘭德系數。
ARI取值范圍為[-1,1],從廣義的角度來講，ARI衡量的是兩個數據分布的吻合程度
sklearn.metrics.adjusted_mutual_info_score:調整的互信息。
利用基於互信息的方法來衡量聚類效果需要實際類別信息，MI與NMI取值范圍為[0,1],AMI取值范圍為[-1,1]。

在scikit-learn中， Calinski-Harabasz Index對應的方法是metrics.calinski_harabaz_score.
CH指標通過計算類中各點與類中心的距離平方和來度量類內的緊密度，通過計算各類中心點與數據集中心點距離平方和來度量數據集的分離度，CH指標由分離度與緊密度的比值得到。從而，CH越大代表著類自身越緊密，類與類之間越分散，即更優的聚類結果。

silhouette_sample
對於一個樣本點(b - a)/max(a, b)
a平均類內距離，b樣本點到與其最近的非此類的距離。
silihouette_score返回的是所有樣本的該值,取值范圍為[-1,1]。

這些度量均是越大越好

K-means演算法應該算是最常見的聚類演算法，該演算法的目的是選擇出質心，使得各個聚類內部的inertia值最小化，計算方法如下：
inertia可以被認為是類內聚合度的一種度量方式，這種度量方式的主要缺點是：
（1）inertia假設數據內的聚類都是凸的並且各向同性（ convex and isotropic），
各項同性是指在數據的屬性在不同方向上是相同的。數據並不是總能夠滿足這些前提假設的，
所以當數據事細長簇的聚類，或者不規則形狀的流形時，K-means演算法的效果不理想。

（2）inertia不是一種歸一化度量方式。一般來說，inertia值越小，說明聚類效果越好。
但是在高維空間中，歐式距離的值可能會呈現迅速增長的趨勢，所以在進行K-means之前首先進行降維操作，如PCA等，可以解決高維空間中inertia快速增長的問題，也有主意提高計算速度。

K-means演算法可以在足夠長的時間內收斂，但有可能收斂到一個局部最小值。
聚類的結果高度依賴質心的初始化，因此在計算過程中，採取的措施是進行不止一次的聚類，每次都初始化不同的質心。
sklearn中可以通過設置參數init='kmeans++'來採取k-means++初始化方案，
即初始化的質心相互之間距離很遠，這種方式相比於隨機初始質心，能夠取得更好的效果。
另外，sklearn中可以通過參數n_job，使得K-means採用並行計算的方式。

##sklearn 中K-means的主要參數：

1) n_clusters: 設定的k值

2）max_iter：最大的迭代次數，一般如果是凸數據集的話可以不管這個值，如果數據集不是凸的，可能很難收斂，此時可以指定最大的迭代次數讓演算法可以及時退出循環。

3）n_init：用不同的初始化質心運行演算法的次數。由於K-Means是結果受初始值影響的局部最優的迭代演算法，因此需要多跑幾次以選擇一個較好的聚類效果，默認是10。如果你的k值較大，則可以適當增大這個值。

4）init：即初始值選擇的方式，可以為完全隨機選擇'random',優化過的'k-means++'或者自己指定初始化的k個質心。一般建議使用默認的'k-means++'。

5）algorithm：有「auto」, 「full」 or 「elkan」三種選擇。"full"就是我們傳統的K-Means演算法，「elkan」elkan K-Means演算法。默認的"auto"則會根據數據值是否是稀疏的，來決定如何選擇"full"和「elkan」。一般來說建議直接用默認的"auto"

聚類的中心
print clf.cluster_centers_

每個樣本所屬的簇
print clf.labels_

用來評估簇的個數是否合適，距離越小說明簇分的越好，選取臨界點的簇個數
print clf.inertia_
Sum of distances of samples to their closest cluster center.
兩個小例子（很久以前弄的，寫得比較簡略比較亂，有空再改，數據是movielen中的電影標簽信息）：
例1：

例2，在區間[2,200]上遍歷k,並生成兩個聚類內部評價指標CH分、輪廓系數以及kmeans自帶inertia分和對應的k值的圖片來選擇k：

其中兩點相似度s(i, j)的度量默認採用負歐氏距離。
sklearn.cluster.AffinityPropagation
有參數preference（設定每一個點的偏好，將偏好於跟其他節點的相似性進行比較，選擇
高的作為exmplar,未設定則使用所有相似性的中位數）、damping （阻尼系數，
利用阻尼系數與1-阻尼系數對r 及 a進行有關迭代步數的凸組合，使得演算法收斂
default 0.5 可以取值與[0.5, 1]）

cluster_centers_indices_:中心樣本的指標。
AP演算法的主要思想是通過數據點兩兩之間傳遞的信息進行聚類。
該演算法的主要優點是能夠自主計算聚類的數目，而不用人為制定類的數目。
其缺點是計算復雜度較大，計算時間長同時空間復雜度大，
因此該演算法適合對數據量不大的問題進行聚類分析。

數據點之間傳遞的信息包括兩個，吸引度（responsibility）r(i,k)和歸屬度（availability）a(i,k)。
吸引度r(i,k)度量的是質心k應當作為點i的質心的程度，
歸屬度a(i,k)度量的是點i應當選擇質心k作為其質心的程度。

其中t是迭代的次數，λ是阻尼因子，其值介於[0,1]，在sklearn.cluster.AffinityPropagation中通過參數damping進行設置。
每次更新完矩陣後，就可以為每個數據點分配質心，分配方式?是針對數據點i，遍歷所有數據點k（包括其自身），
找到一個k使得r(i,k)+a(i,k)的值最大，則點k就是點i所屬的質心，迭代這個過程直至收斂。
所謂收斂就是所有點所屬的質心不再變化

首先說明不引入核函數時的情況。
演算法大致流程為：隨機選取一個點作為球心，以一定半徑畫一個高維球（數據可能是高維的），
在這個球范圍內的點都是這個球心的鄰居。這些鄰居相對於球心都存在一個偏移向量，
將這些向量相加求和再平均，就得到一個mean shift，起點在原球心，重點在球內的其他位置。
以mean shift的重點作為新的球心，重復上述過程直至收斂。

這個計算過程中，高維球內的點，無論其距離球心距離多遠，對於mean shift的計算權重是一樣的。
為了改善這種情況，在迭代計算mean shift的過程中引入了核函數
sklearn中相關實現是sklearn.cluster.MeanShift。

sklearn中實現的是自底向上的層次聚類，實現方法是sklearn.cluster.AgglomerativeClustering。
初始時，所有點各自單獨成為一類，然後採取某種度量方法將相近的類進行合並，並且度量方法有多種選擇。
合並的過程可以構成一個樹結構，其根節點就是所有數據的集合，葉子節點就是各條單一數據。
sklearn.cluster.AgglomerativeClustering中可以通過參數linkage選擇不同的度量方法，用來度量兩個類之間的距離，
可選參數有ward,complete,average三個。

ward:選擇這樣的兩個類進行合並，合並後的類的離差平方和最小。

complete:兩個類的聚類被定義為類內數據的最大距離，即分屬兩個類的距離最遠的兩個點的距離。
選擇兩個類進行合並時，從現有的類中找到兩個類使得這個值最小，就合並這兩個類。

average:兩個類內數據兩兩之間距離的平均值作為兩個類的距離。
同樣的，從現有的類中找到兩個類使得這個值最小，就合並這兩個類。

Agglomerative cluster有一個缺點，就是rich get richer現象，
這可能導致聚類結果得到的類的大小不均衡。
從這個角度考慮，complete策略效果最差，ward得到的類的大小最為均衡。
但是在ward策略下，affinity參數只能是「euclidean」，即歐式距離。
如果在歐氏距離不適用的環境中，average is a good alternative。

另外還應該注意參數affinity，這個參數設置的是計算兩個點之間距離時採用的策略，
注意和參數linkage區分，linkage設置的是衡量兩個類之間距離時採用的策略，
而點之間的距離衡量是類之間距離衡量的基礎。
affinity的可選數值包括「euclidean」, 「l1」, 「l2」, 「manhattan」, 「cosine」,
『precomputed』. If linkage is 「ward」, only 「euclidean」 is accepted.

DBSCAN演算法的主要思想是，認為密度稠密的區域是一個聚類，各個聚類是被密度稀疏的區域劃分開來的。
也就是說，密度稀疏的區域構成了各個聚類之間的劃分界限。與K-means等演算法相比，該演算法的主要優點包括：可以自主計算聚類的數目，不需要認為指定；不要求類的形狀是凸的，可以是任意形狀的。

DBSCAN中包含的幾個關鍵概念包括core sample，non-core sample，min_sample，eps。
core samle是指，在該數據點周圍eps范圍內，至少包含min_sample個其他數據點，則該點是core sample，
這些數據點稱為core sample的鄰居。與之對應的，non-sample是該點周圍eps范圍內，所包含的數據點個數少於min_sample個。從定義可知，core sample是位於密度稠密區域的點。

一個聚類就是一個core sample的集合，這個集合的構建過程是一個遞歸的構成。
首先，找到任意個core sample，然後從它的鄰居中找到core sample，
接著遞歸的從這些鄰居中的core sample的鄰居中繼續找core sample。
要注意core sample的鄰居中不僅有其他core sample，也有一些non-core smaple，
也正是因為這個原因，聚類集合中也包含少量的non-core sample，它們是聚類中core sample的鄰居，
但自己不是core sample。這些non-core sample構成了邊界。

在確定了如何通過單一core sample找到了一個聚類後，下面描述DBSCAN演算法的整個流程。
首先，掃描數據集找到任意一個core sample，以此core sample為起點，按照上一段描述的方法進行擴充，確定一個聚類。然後，再次掃描數據集，找到任意一個不屬於以確定類別的core sample，重復擴充過程，再次確定一個聚類。
迭代這個過程，直至數據集中不再包含有core sample。
這也是為什麼DBSCAN不用認為指定聚類數目的原因。

DBSCAN演算法包含一定的非確定性。數據中的core sample總是會被分配到相同的聚類中的，哪怕在統一數據集上多次運行DBSCAN。其不確定性主要體現在non-core sample的分配上。
一個non-core sample可能同時是兩個core sample的鄰居，而這兩個core sample隸屬於不同的聚類。
DBSCAN中，這個non-core sample會被分配給首先生成的那個聚類，而哪個聚類先生成是隨機的。

sklearn中DBSCAN的實現中，鄰居的確定使用的ball tree和kd-tree思想，這就避免了計算距離矩陣。

『伍』 16種常用的數據分析方法-聚類分析

聚類（Clustering）就是一種尋找數據之間內在結構的技術。聚類把全體數據實例組織成一些相似組，而這些相似組被稱作簇。處於相同簇中的數據實例彼此相同，處於不同簇中的實例彼此不同。

聚類分析定義

聚類分析是根據在數據中發現的描述對象及其關系的信息，將數據對象分組。目的是，組內的對象相互之間是相似的（相關的），而不同組中的對象是不同的（不相關的）。組內相似性越大，組間差距越大，說明聚類效果越好。

聚類效果的好壞依賴於兩個因素：1.衡量距離的方法（distance measurement） 2.聚類演算法（algorithm）

聚類分析常見演算法

K-均值聚類也稱為快速聚類法，在最小化誤差函數的基礎上將數據劃分為預定的類數K。該演算法原理簡單並便於處理大量數據。

K-均值演算法對孤立點的敏感性，K-中心點演算法不採用簇中對象的平均值作為簇中心，而選用簇中離平均值最近的對象作為簇中心。

也稱為層次聚類，分類的單位由高到低呈樹形結構，且所處的位置越低，其所包含的對象就越少，但這些對象間的共同特徵越多。該聚類方法只適合在小數據量的時候使用，數據量大的時候速度會非常慢。

案例

有20種12盎司啤酒成分和價格的數據，變數包括啤酒名稱、熱量、鈉含量、酒精含量、價格。

問題一：選擇那些變數進行聚類？——採用「R 型聚類」

現在我們有4個變數用來對啤酒分類，是否有必要將4個變數都納入作為分類變數呢？熱量、鈉含量、酒精含量這3個指標是要通過化驗員的辛苦努力來測定，而且還有花費不少成本。

所以，有必要對4個變數進行降維處理，這里採用spss R型聚類（變數聚類），對4個變數進行降維處理。輸出「相似性矩陣」有助於我們理解降維的過程。

4個分類變數各自不同，這一次我們先用相似性來測度，度量標准選用pearson系數，聚類方法選最遠元素，此時，涉及到相關，4個變數可不用標准化處理，將來的相似性矩陣里的數字為相關系數。若果有某兩個變數的相關系數接近1或-1，說明兩個變數可互相替代。

只輸出「樹狀圖」就可以了,從proximity matrix表中可以看出熱量和酒精含量兩個變數相關系數0.903，最大，二者選其一即可，沒有必要都作為聚類變數，導致成本增加。

至於熱量和酒精含量選擇哪一個作為典型指標來代替原來的兩個變數，可以根據專業知識或測定的難易程度決定。（與因子分析不同，是完全踢掉其中一個變數以達到降維的目的。）這里選用酒精含量，至此，確定出用於聚類的變數為：酒精含量，鈉含量，價格。

問題二：20 中啤酒能分為幾類？—— 採用「Q 型聚類」

現在開始對20中啤酒進行聚類。開始不確定應該分為幾類，暫時用一個3-5類范圍來試探。Q型聚類要求量綱相同，所以我們需要對數據標准化，這一回用歐式距離平方進行測度。

主要通過樹狀圖和冰柱圖來理解類別。最終是分為4類還是3類，這是個復雜的過程，需要專業知識和最初的目的來識別。

這里試著確定分為4類。選擇「保存」，則在數據區域內會自動生成聚類結果。

問題三：用於聚類的變數對聚類過程、結果又貢獻么，有用么？——採用「單因素方差分析」

聚類分析除了對類別的確定需討論外，還有一個比較關鍵的問題就是分類變數到底對聚類有沒有作用有沒有貢獻，如果有個別變數對分類沒有作用的話，應該剔除。

這個過程一般用單因素方差分析來判斷。注意此時，因子變數選擇聚為4類的結果，而將三個聚類變數作為因變數處理。方差分析結果顯示，三個聚類變數sig值均極顯著，我們用於分類的3個變數對分類有作用，可以使用，作為聚類變數是比較合理的。

問題四：聚類結果的解釋？——採用」均值比較描述統計「

聚類分析最後一步，也是最為困難的就是對分出的各類進行定義解釋，描述各類的特徵，即各類別特徵描述。這需要專業知識作為基礎並結合分析目的才能得出。

我們可以採用spss的means均值比較過程，或者excel的透視表功能對各類的各個指標進行描述。其中，report報表用於描述聚類結果。對各類指標的比較來初步定義類別，主要根據專業知識來判定。這里到此為止。

以上過程涉及到spss層次聚類中的Q型聚類和R型聚類，單因素方差分析，means過程等，是一個很不錯的多種分析方法聯合使用的案例。

聚類分析的應用

聚類分析是細分市場的有效工具，被用來發現不同的客戶群，並且它通過對不同的客戶群的特徵的刻畫，被用於研究消費者行為，尋找新的潛在市場。

聚類分析被用來對動植物和基因進行分類，以獲取對種群固有結構的認識。

聚類分析可以通過平均消費來鑒定汽車保險單持有者的分組，同時可以根據住宅類型、價值、地理位置來鑒定城市的房產分組。

聚類分析被用來在網上進行文檔歸類。

聚類分析通過分組聚類出具有相似瀏覽行為的客戶，並分析客戶的共同特徵，從而幫助電子商務企業了解自己的客戶，向客戶提供更合適的服務。

『陸』 DBSCAN原理

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）聚類演算法，它是一種基於高密度連通區域的、基於密度的聚類演算法，能夠將具有足夠高密度的區域劃分為簇，並在具有雜訊的數據中發現任意形狀的簇。我們總結一下DBSCAN聚類演算法原理的基本要點：
DBSCAN演算法需要選擇一種距離度量，對於待聚類的數據集中，任意兩個點之間的距離，反映了點之間的密度，說明了點與點是否能夠聚到同一類中。由於DBSCAN演算法對高維數據定義密度很困難，所以對於二維空間中的點，可以使用歐幾里德距離來進行度量。
DBSCAN演算法需要用戶輸入2個參數：一個參數是半徑（Eps），表示以給定點P為中心的圓形鄰域的范圍；另一個參數是以點P為中心的鄰域內最少點的數量（MinPts）。如果滿足：以點P為中心、半徑為Eps的鄰域內的點的個數不少於MinPts，則稱點P為核心點。
DBSCAN聚類使用到一個k-距離的概念，k-距離是指：給定數據集P={p(i); i=0,1,…n}，對於任意點P(i)，計算點P(i)到集合D的子集S={p(1), p(2), …, p(i-1), p(i+1), …, p(n)}中所有點之間的距離，距離按照從小到大的順序排序，假設排序後的距離集合為D={d(1), d(2), …, d(k-1), d(k), d(k+1), …,d(n)}，則d(k)就被稱為k-距離。也就是說，k-距離是點p(i)到所有點（除了p(i)點）之間距離第k近的距離。對待聚類集合中每個點p(i)都計算k-距離，最後得到所有點的k-距離集合E={e(1), e(2), …, e(n)}。
根據經驗計算半徑Eps：根據得到的所有點的k-距離集合E，對集合E進行升序排序後得到k-距離集合E』，需要擬合一條排序後的E』集合中k-距離的變化曲線圖，然後繪出曲線，通過觀察，將急劇發生變化的位置所對應的k-距離的值，確定為半徑Eps的值。
根據經驗計算最少點的數量MinPts：確定MinPts的大小，實際上也是確定k-距離中k的值，DBSCAN演算法取k=4，則MinPts=4。
另外，如果覺得經驗值聚類的結果不滿意，可以適當調整Eps和MinPts的值，經過多次迭代計算對比，選擇最合適的參數值。可以看出，如果MinPts不變，Eps取得值過大，會導致大多數點都聚到同一個簇中，Eps過小，會導致以一個簇的分裂；如果Eps不變，MinPts的值取得過大，會導致同一個簇中點被標記為雜訊點，MinPts過小，會導致發現大量的核心點。

『柒』常用的聚類方法有哪幾種

聚類分析的演算法可以分為劃分法、層次法、基於密度的方法、基於網格的方法、基於模型的方法。

1、劃分法，給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K<N。

2、層次法，這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。

3、基於密度的方法，基於密度的方法與其它方法的一個根本區別是：它不是基於各種各樣的距離的，而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。

4、圖論聚類方法解決的第一步是建立與問題相適應的圖，圖的節點對應於被分析數據的最小單元，圖的邊（或弧）對應於最小處理單元數據之間的相似性度量。

5、基於網格的方法，這種方法首先將數據空間劃分成為有限個單元的網格結構,所有的處理都是以單個的單元為對象的。

6、基於模型的方法，基於模型的方法給每一個聚類假定一個模型，然後去尋找能夠很好的滿足這個模型的數據集。

(7)聚類演算法貪心演算法擴展閱讀：

在商業上，聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來，並且概括出每一類消費者的消費模式或者說習慣。

它作為數據挖掘中的一個模塊，可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息，並且概括出每一類的特點，或者把注意力放在某一個特定的類上以作進一步的分析；並且，聚類分析也可以作為數據挖掘演算法中其他分析演算法的一個預處理步驟。

許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好；但是，一個大規模資料庫可能包含幾百萬個對象，在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。

許多聚類演算法在聚類分析中要求用戶輸入一定的參數，例如希望產生的簇的數目。聚類結果對於輸入參數十分敏感。參數通常很難確定，特別是對於包含高維對象的數據集來說。這樣不僅加重了用戶的負擔，也使得聚類的質量難以控制。

『捌』四種聚類方法之比較

四種聚類方法之比較
介紹了較為常見的k-means、層次聚類、SOM、FCM等四種聚類演算法，闡述了各自的原理和使用步驟，利用國際通用測試數據集IRIS對這些演算法進行了驗證和比較。結果顯示對該測試類型數據，FCM和k-means都具有較高的准確度，層次聚類准確度最差，而SOM則耗時最長。
關鍵詞:聚類演算法；k-means；層次聚類；SOM；FCM
聚類分析是一種重要的人類行為，早在孩提時代，一個人就通過不斷改進下意識中的聚類模式來學會如何區分貓狗、動物植物。目前在許多領域都得到了廣泛的研究和成功的應用，如用於模式識別、數據分析、圖像處理、市場研究、客戶分割、Web文檔分類等[1]。
聚類就是按照某個特定標准(如距離准則)把一個數據集分割成不同的類或簇，使得同一個簇內的數據對象的相似性盡可能大，同時不在同一個簇中的數據對象的差異性也盡可能地大。即聚類後同一類的數據盡可能聚集到一起，不同數據盡量分離。
聚類技術[2]正在蓬勃發展，對此有貢獻的研究領域包括數據挖掘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等。各種聚類方法也被不斷提出和改進，而不同的方法適合於不同類型的數據，因此對各種聚類方法、聚類效果的比較成為值得研究的課題。
1 聚類演算法的分類
目前，有大量的聚類演算法[3]。而對於具體應用，聚類演算法的選擇取決於數據的類型、聚類的目的。如果聚類分析被用作描述或探查的工具，可以對同樣的數據嘗試多種演算法，以發現數據可能揭示的結果。
主要的聚類演算法可以劃分為如下幾類：劃分方法、層次方法、基於密度的方法、基於網格的方法以及基於模型的方法[4-6]。
每一類中都存在著得到廣泛應用的演算法，例如：劃分方法中的k-means[7]聚類演算法、層次方法中的凝聚型層次聚類演算法[8]、基於模型方法中的神經網路[9]聚類演算法等。
目前,聚類問題的研究不僅僅局限於上述的硬聚類，即每一個數據只能被歸為一類，模糊聚類[10]也是聚類分析中研究較為廣泛的一個分支。模糊聚類通過隸屬函數來確定每個數據隸屬於各個簇的程度，而不是將一個數據對象硬性地歸類到某一簇中。目前已有很多關於模糊聚類的演算法被提出，如著名的FCM演算法等。
本文主要對k-means聚類演算法、凝聚型層次聚類演算法、神經網路聚類演算法之SOM,以及模糊聚類的FCM演算法通過通用測試數據集進行聚類效果的比較和分析。
2 四種常用聚類演算法研究
2.1 k-means聚類演算法
k-means是劃分方法中較經典的聚類演算法之一。由於該演算法的效率高，所以在對大規模數據進行聚類時被廣泛應用。目前，許多演算法均圍繞著該演算法進行擴展和改進。
k-means演算法以k為參數，把n個對象分成k個簇，使簇內具有較高的相似度，而簇間的相似度較低。k-means演算法的處理過程如下：首先，隨機地選擇k個對象，每個對象初始地代表了一個簇的平均值或中心;對剩餘的每個對象，根據其與各簇中心的距離，將它賦給最近的簇;然後重新計算每個簇的平均值。這個過程不斷重復，直到准則函數收斂。通常，採用平方誤差准則，其定義如下：

這里E是資料庫中所有對象的平方誤差的總和，p是空間中的點，mi是簇Ci的平均值[9]。該目標函數使生成的簇盡可能緊湊獨立，使用的距離度量是歐幾里得距離,當然也可以用其他距離度量。k-means聚類演算法的演算法流程如下：
輸入：包含n個對象的資料庫和簇的數目k；
輸出：k個簇，使平方誤差准則最小。
步驟：
(1) 任意選擇k個對象作為初始的簇中心；
(2) repeat；
(3) 根據簇中對象的平均值，將每個對象(重新)賦予最類似的簇；
(4) 更新簇的平均值，即計算每個簇中對象的平均值；
(5) until不再發生變化。
2.2 層次聚類演算法
根據層次分解的順序是自底向上的還是自上向下的，層次聚類演算法分為凝聚的層次聚類演算法和分裂的層次聚類演算法。
凝聚型層次聚類的策略是先將每個對象作為一個簇，然後合並這些原子簇為越來越大的簇，直到所有對象都在一個簇中，或者某個終結條件被滿足。絕大多數層次聚類屬於凝聚型層次聚類，它們只是在簇間相似度的定義上有所不同。四種廣泛採用的簇間距離度量方法如下：

這里給出採用最小距離的凝聚層次聚類演算法流程：
(1) 將每個對象看作一類，計算兩兩之間的最小距離；
(2) 將距離最小的兩個類合並成一個新類；
(3) 重新計算新類與所有類之間的距離；
(4) 重復(2)、(3)，直到所有類最後合並成一類。
2.3 SOM聚類演算法
SOM神經網路[11]是由芬蘭神經網路專家Kohonen教授提出的，該演算法假設在輸入對象中存在一些拓撲結構或順序，可以實現從輸入空間(n維)到輸出平面(2維)的降維映射，其映射具有拓撲特徵保持性質,與實際的大腦處理有很強的理論聯系。
SOM網路包含輸入層和輸出層。輸入層對應一個高維的輸入向量，輸出層由一系列組織在2維網格上的有序節點構成，輸入節點與輸出節點通過權重向量連接。學習過程中，找到與之距離最短的輸出層單元，即獲勝單元，對其更新。同時，將鄰近區域的權值更新，使輸出節點保持輸入向量的拓撲特徵。
演算法流程：
(1) 網路初始化，對輸出層每個節點權重賦初值；
(2) 將輸入樣本中隨機選取輸入向量，找到與輸入向量距離最小的權重向量；
(3) 定義獲勝單元，在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏；
(4) 提供新樣本、進行訓練；
(5) 收縮鄰域半徑、減小學習率、重復，直到小於允許值，輸出聚類結果。
2.4 FCM聚類演算法
1965年美國加州大學柏克萊分校的扎德教授第一次提出了『集合』的概念。經過十多年的發展，模糊集合理論漸漸被應用到各個實際應用方面。為克服非此即彼的分類缺點，出現了以模糊集合論為數學基礎的聚類分析。用模糊數學的方法進行聚類分析，就是模糊聚類分析[12]。
FCM演算法是一種以隸屬度來確定每個數據點屬於某個聚類程度的演算法。該聚類演算法是傳統硬聚類演算法的一種改進。

演算法流程：
(1) 標准化數據矩陣；
(2) 建立模糊相似矩陣，初始化隸屬矩陣；
(3) 演算法開始迭代，直到目標函數收斂到極小值；
(4) 根據迭代結果，由最後的隸屬矩陣確定數據所屬的類，顯示最後的聚類結果。
3 四種聚類演算法試驗
3.1 試驗數據
實驗中，選取專門用於測試分類、聚類演算法的國際通用的UCI資料庫中的IRIS[13]數據集，IRIS數據集包含150個樣本數據，分別取自三種不同的鶯尾屬植物setosa、versicolor和virginica的花朵樣本,每個數據含有4個屬性，即萼片長度、萼片寬度、花瓣長度，單位為cm。在數據集上執行不同的聚類演算法，可以得到不同精度的聚類結果。
3.2 試驗結果說明
文中基於前面所述各演算法原理及演算法流程，用matlab進行編程運算，得到表1所示聚類結果。

如表1所示，對於四種聚類演算法，按三方面進行比較：(1)聚錯樣本數：總的聚錯的樣本數，即各類中聚錯的樣本數的和；(2)運行時間：即聚類整個過程所耗費的時間，單位為s；(3)平均准確度：設原數據集有k個類,用ci表示第i類，ni為ci中樣本的個數，mi為聚類正確的個數,則mi/ni為第i類中的精度，則平均精度為：

3.3 試驗結果分析
四種聚類演算法中，在運行時間及准確度方面綜合考慮，k-means和FCM相對優於其他。但是，各個演算法還是存在固定缺點：k-means聚類演算法的初始點選擇不穩定，是隨機選取的，這就引起聚類結果的不穩定，本實驗中雖是經過多次實驗取的平均值，但是具體初始點的選擇方法還需進一步研究；層次聚類雖然不需要確定分類數，但是一旦一個分裂或者合並被執行，就不能修正，聚類質量受限制；FCM對初始聚類中心敏感，需要人為確定聚類數，容易陷入局部最優解；SOM與實際大腦處理有很強的理論聯系。但是處理時間較長，需要進一步研究使其適應大型資料庫。
聚類分析因其在許多領域的成功應用而展現出誘人的應用前景，除經典聚類演算法外，各種新的聚類方法正被不斷被提出。

『玖』多元統計學-聚類分析

1. 應用統計學與R語言實現學習筆記（十）——聚類分析 )
2. 廈門大學-多元統計分析
3. DBSCAN 密度聚類法
4. 四大聚類演算法（KNN、Kmeans、密度聚類、層次聚類）

俗話說，物以類聚，人以群分。聚類在日常生活中，非常常見.
就是將相似的物體，放在一起.

聚類的目的 ——根據已知數據（一批觀察個體的許多觀測指標），按照一定的數學公式計算各觀察個體或變數（指標）之間親疏關系的統計量（距離或相關系數等）。根據某種准則（最短距離法、最長距離法、中間距離法、重心法等），使同一類內的差別較小，而類與類之間的差別較大，最終將觀察個體或變數分為若干類。

根據分類的對象可將聚類分析分為：

樣品間親疏程度的測度

研究樣品或變數的親疏程度的數量指標有兩種，一種叫相似系數，性質越接近的變數或樣品，它們的相似系數越接近於1，而彼此無關的變數或樣品它們的相似系數則越接近於0，相似的為一類，不相似的為不同類；另一種叫距離，它是將每一個樣品看作p維空間的一個點，並用某種度量測量點與點之間的距離，距離較近的歸為一類，距離較遠的點屬於不同的類。

變數之間的聚類即R型聚類分析，常用相似系數來測度變數之間的親疏程度。
而樣品之間的聚類即Q型聚類分析，則常用距離來測度樣品之間的親疏程度。

距離

假使每個樣品有p個變數，則每個樣品都可以看成p維空間中的一個點， n個樣品就是p維空間中的n個點，則第i樣品與第j樣品之間的距離可以進行計算。

幾種常用方式度量：
歐式距離 L2（Euclidean distance）--- 常用
馬氏距離（Mahalanobis distance）---協方差矩陣
Minkowski測度（ Minkowski metric）
Canberra測度（Canberra metric）

有了距離衡量度量，我們可以計算兩兩的距離，就得到距離矩陣~
比如：下面用dist 計算距離的方法

定義了距離之後，怎樣找到"合理"的規則，使相似的/距離小的個體聚成一個族群？

考慮所有的群組組合顯然在計算上很難實現，所以一種常用的聚類方法為層次聚類/系統聚類（hierarchical
clustering）

從系統樹圖中可以看出，我們需要度量族群與族群之間的距離，不同的定義方法決定了不同的聚類結果：

計算族群距離的三種方法的比較：

（可以看到都是小小的族群合並在一起，因為讓方差增加最小，傾向與合並小群體）

一般情況，我們得到系統樹，需要對樹進行切割. 如下圖一條條豎線.

層次聚類族群數的選擇：

1、建立n個初始族群，每個族群中只有一個個體
2、計算n個族群間的距離矩陣
3、合並距離最小的兩個族群
4、計算新族群間的距離矩陣。如果組別數為1，轉步驟5；否則轉步驟3
5、繪制系統樹圖
6、選擇族群個數

在層次聚類中，一旦個體被分入一個族群，它將不可再被歸入另一個族群,故現在介紹一個「非層次」的聚類方法——分割法（Partition）。最常用的分割法是k-均值（k-Means）法

k-均值法試圖尋找個族群的劃分方式，使得劃分後的族群內方差和（within-group sum of squares，WGSS）最小.

思路也是將相近的樣本,聚在一起，使得組內方差小，組間方差大.

① 選定個「種子」（Cluster seeds）作為初始族群代表
② 每個個體歸入距離其最近的種子所在的族群
③ 歸類完成後，將新產生的族群的質心定為新的種子
④ 重復步驟2和3，直到不再需要移動
⑤ 選擇不同的k 值，計算WGSS,找到拐點確定最合適的K.

有多種初始種子的選取方法可供選擇：
1、在相互間隔超過某指定最小距離的前提下，隨機選擇k個個體
2、選擇數據集前k個相互間隔超過某指定最小距離的個體
3、選擇k個相互距離最遠的個體
4、選擇k個等距網格點（Grid points），這些點可能不是數據集的點

可以想到，左側的點收斂更快得到全局最優；左側可能聚類效果一般，或者收斂非常慢，得到局部最優.

我們的目標是使得WGSS足夠小，是否應該選取k使得WGSS最小？

我們需要選擇一個使得WGSS足夠小（但不是最小）的k值.（PS: 族群內方差和最小時候，k=n,此時WGSS為0，此時是過擬合問題~）

當我們分部計算k=1,2,3,4,5... 時候，WGSS值，就可以繪制下面碎石圖。及WGSS 隨著k 變化過程。k 越大，WGSS越小.

『拾』聚類分析（Cluster Analysis）

聚類，將相似的事物聚集在一起，將不相似的事物劃分到不同的類別的過程。是將復雜數據簡化為少數類別的一種手段。

設有m個樣本單位，每個樣本測的n項指標（變數），原始資料矩陣：

指標的選擇非常重要：
必要性要求：和聚類分析的目的密切相關，並不是越多越好
代表性要求：反映要分類變數的特徵
區分度要求：在不同研究對象類別上的值有明顯的差異
獨立性要求：變數之間不能高度相關（兒童生長身高和體重非常相關）
散布性要求：最好在值域范圍內分布不太集中

在各種標准量度值scale差異過大時，或數據不符合正態分布時，可能需要進行數據標准化。
（1） 總和標准化 。分別求出各聚類指標所對應的數據的總和，以各指標的數據除以該指標的數據的總和。

根據聚類對象的不同，分為Q型聚類，R型聚類

（1）常見距離統計量 - 閔可夫斯基距離系列（線性距離）

p=2，時為歐氏距離（n維空間中的幾何距離）
p=∞，時為切比雪夫距離（棋盤格距離）

（2）常見距離統計量 - 馬氏距離（協方差距離）
均值為μ，協方差矩陣為∑的向量x=(1,2,...n)
相比於歐式距離，馬氏距離考慮到各種指標之間的聯系（如身高和體重並不獨立，）且馬氏距離具有尺度無關性（scale-invariant），因此可不必做標准化。
如果協方差矩陣為單位矩陣（各指標之間完全相互獨立），則馬氏距離化為歐幾里得距離。
如果協方差矩陣為對角矩陣，則馬氏距離化為正規化的歐幾里得距離（normalized Euclidean distance）

（3）常見距離統計量 - 文本距離
文本距離通常用來度量文本之間的相似度，在生物研究中常見於序列比對分析。

常見相似系數統計量
相似系數= 1，表明完全相似
相似系數= -1 表明完全相反
相似系數 = 0 表明完全獨立
相關系數：

類與類之間距離的度量方法：
系統聚類法不僅需要度量個體與個體之間的距離，還要度量類與類之間的距離。類間距離被度量出來之後，距離最小的兩個小類將首先被合並成為一類。由類間距離定義的不同產生了不同的系統聚類法。

目前有1000多種聚類演算法：沒有一種聚類演算法可以包打天下，聚類演算法中的各種參數也必須依據具體問題而調節
常見聚類演算法的分類：
1，層次聚類（Hierarchical clustering）
2，劃分聚類（Partitioning clustering）
3，密度聚類（Density-based）
4，期望最大化聚類（Expectation Maximization）
5，網格聚類（Grid-based）
6，模型聚類（Model-based）

1. 層次聚類的方法
基本思想：
在聚類分析的開始，每個樣本（或變數）自成一類；然後，按照某種方法度量所有樣本（或變數）之間的親疏程度，並把最相似的樣本（或變數）首先聚成一小類；接下來，度量剩餘的樣本（或變數）和小類間的親疏程度，並將當前最接近的樣本（或變數）與小類聚成一類；如此反復，知道所有樣本聚成一類為止。
舉例：
有一組數據D={a,b,c,d,e} 給了它們之間的距離矩陣。
首先，每一個例子都是一個類：

2. 劃分聚類的方法
劃分聚類演算法：
給定一個包含n個樣本的數據集，基於劃分的方法（Partitioning Method）就是將n個樣本按照特定的度量劃分為k個簇（k≤n），使得每個簇至少包含一個對象，並且每個對象屬於且僅屬於一個簇，而且簇之間不存在層次關系。

基於劃分的方法大多數是基於距離來劃分的，首先對樣本進行初始化分，然後計算樣本間的距離，重新對數據集中的樣本進行劃分，將樣本劃分到距離更近的簇中，得到一個新的樣本劃分，迭代計算直到聚類結果滿足用戶指定的要求。

要想得到最優的聚類結果，演算法需要窮舉數據集所有可能的劃分情況，但是在實際應用中數據量都比較大，利用窮舉方法聚類顯然是不現實的，因此大部分基於劃分的聚類方法採用貪心策略，即在每一次劃分過程中尋求最優解，然後基於最優解進行迭代計算，逐步提高聚類結果的質量。雖然這種方式有可能得到局部最優結果，但是結合效率方面考慮，也是可以接受的。

演算法：

舉例：
有一個二維空間的一些點，我們要將它們分成3個類，即K=3。

我們首先隨機選擇3個初始質心，每一個質心為一類：

然後我們計算每一個不是質心的點到這三個質心的距離：

將這些點歸類於距離最近的那個質心的一類：

重新計算這三個分類的質心：

不斷重復上述兩步，更新三個類：

當穩定以後，迭代停止，這時候的三個類就是我們得到的最後的三個：

最著名的是k-means聚類演算法和K-medoids演算法（中心點聚類）

處理「大海中的若干孤島」，以密度來區分島

大部分基於密度的方法（Density-based Method）採用距離度量來對數據集進行劃分，在球狀的數據集中能夠正確劃分，但是在非球狀的數據集中則無法對樣本進行正確聚類，並且受到數據集中的雜訊數據影響較大。基於密度的方法可以克服這兩個弱點。

基於密度的方法提出「密度」的思想，即給定鄰域中樣本點的數量，當鄰域中密度達到或超過密度閾值時，將鄰域內的樣本包含到當前的簇中。若鄰域的密度不滿足閾值要求，則當前的簇劃分完成，對下一個簇進行劃分。基於密度的方法可以對數據集中的離群點進行檢測和過濾。

演算法 ：

基於網格的方法（Grid-based Method）將數據集空間劃分為有限個網格單元，形成一個網路結構，在後續的聚類過程中，以網格單元為基本單位進行聚類，而不是以樣本為單位。由於演算法處理時間與樣本數量無關，只與網格單元數量有關，因此這種方法在處理大數據集時效率很高。基於網格的方法可以在網格單元劃分的基礎上，與基於密度的方法、基於層次的方法等結合使用。

基於模型的方法（Model-based Method）假定數據集滿足一定的分布模型，找到這樣的分布模型，就可以對數據集進行聚類。基於模型的方法主要包括基於統計和基於神經網路兩大類，前者以高斯混合模型（Gaussian Mixture Models，GMM）為代表，後者以自組織映射網路（Self Organizing Map，SOM）為代表。目前以基於統計模型的方法為主。

以下內容後續補充：

數據示例：

為了有效利用聚類演算法，首先需要度量觀測值見的距離，在R中常通過stats包里的dist函數來實現：
dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2)
dist 函數計算對象（矩陣或數據框）中兩兩間的距離，返回的是距離矩陣（dist類對象）。dist函數的參數描述如下。

另一個計算點之間的距離的方法是cluster包裡面的daisy函數：

daisy函數計算數據集中每對觀測值的不相似度。daisy函數的參數描述如下：

k-means聚類是最簡單的聚類演算法之一。R中可以通過stats包裡面的kmeans函數實現k-means聚類：
kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen"), trace=FALSE)
kmeans函數的參數描述如下：

導航:首頁 > 源碼編譯 > 聚類演算法貪心演算法

聚類演算法貪心演算法

與聚類演算法貪心演算法相關的資料