A. 簡述K-means演算法的基本過程及其不足。《數據挖掘》作業題追分100
過程:
1、 從 n個數據對象任意選擇 k 個對象作為初始聚類中心;
2、 根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;並根據最小距離重新對相應對象進行劃分;
3、 重新計算每個(有變化)聚類的均值(中心對象)
4、循環步驟2和3,直到每個聚類不再發生變化為止
缺點:
1、聚類個數K需要自己決定,因此在不知道具體有多少類時需要從2開始多次嘗試,選擇最好的
2、當k確定時,聚類效果和初始中心選擇有關,所以演算法很不穩定
3、演算法在維數較多時,由於需要多次迭代,花費時間較長
B. k-means的優缺點
K-means聚類演算法是一種基於迭代的無監督學習方法,其核心思想是將數據集劃分為預設數量的簇,通過不斷調整每個簇的中心(聚類中心)來最小化每個數據點到其所屬簇中心的歐氏距離平方和。然而,這種方法並非完美,存在以下局限性:
C. kmeans聚類演算法優缺點
優缺點如下:
1、優點
k-平均演算法是解決聚類問題的一種經典演算法,演算法簡單、快速。
對處理大數據集,該演算法是相對可伸縮的和高效率的,因為它的復雜度大約是O(nkt) O(nkt)O(nkt),其中n是所有對象的數目,k是簇的數目,t是迭代的次數。通常k<<n。這個演算法經常以局部最優結束。
演算法嘗試找出使平方誤差函數值最小的k個劃分。當簇是密集的、球狀或團狀的,而簇與簇之間區別明顯時,它的聚類效果很好。
2、缺點
對K值敏感。也就是說,K的選擇會較大程度上影響分類效果。在聚類之前,我們需要預先設定K的大小,但是我們很難確定分成幾類是最佳的,比如上面的數據集中,顯然分為2類,即K = 2最好,但是當數據量很大時,我們預先無法判斷。
對離群點和雜訊點敏感。如果在上述數據集中添加一個噪音點,這個噪音點獨立成一個類。很顯然,如果K=2,其餘點是一類,噪音點自成一類,原本可以區分出來的點被噪音點影響,成為了一類了。如果K=3,噪音點也是自成一類,剩下的數據分成兩類。這說明噪音點會極大的影響其他點的分類。
聚類分析特點
聚類分析的實質:是建立一種分類方法,它能夠將一批樣本數據按照他們在性質上的親密程度在沒有先驗知識的情況下自動進行分類。這里所說的類就是一個具有相似性的個體的集合,不同類之間具有明顯的區別。
層次聚類分析是根據觀察值或變數之間的親疏程度,將最相似的對象結合在 一起,以逐次聚合的方式(Agglomerative Clustering),它將觀察值分類,直到最後所有樣本都聚成一類。
層次聚類分析有兩種形式,一種是對樣本(個案)進行分類,稱為Q型聚類;另一種是對研究對象的觀察變數進行分類,稱為R型聚類。