A. 简述K-means算法的基本过程及其不足。《数据挖掘》作业题追分100
过程:
1、 从 n个数据对象任意选择 k 个对象作为初始聚类中心;
2、 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
3、 重新计算每个(有变化)聚类的均值(中心对象)
4、循环步骤2和3,直到每个聚类不再发生变化为止
缺点:
1、聚类个数K需要自己决定,因此在不知道具体有多少类时需要从2开始多次尝试,选择最好的
2、当k确定时,聚类效果和初始中心选择有关,所以算法很不稳定
3、算法在维数较多时,由于需要多次迭代,花费时间较长
B. k-means的优缺点
K-means聚类算法是一种基于迭代的无监督学习方法,其核心思想是将数据集划分为预设数量的簇,通过不断调整每个簇的中心(聚类中心)来最小化每个数据点到其所属簇中心的欧氏距离平方和。然而,这种方法并非完美,存在以下局限性:
C. kmeans聚类算法优缺点
优缺点如下:
1、优点
k-平均算法是解决聚类问题的一种经典算法,算法简单、快速。
对处理大数据集,该算法是相对可伸缩的和高效率的,因为它的复杂度大约是O(nkt) O(nkt)O(nkt),其中n是所有对象的数目,k是簇的数目,t是迭代的次数。通常k<<n。这个算法经常以局部最优结束。
算法尝试找出使平方误差函数值最小的k个划分。当簇是密集的、球状或团状的,而簇与簇之间区别明显时,它的聚类效果很好。
2、缺点
对K值敏感。也就是说,K的选择会较大程度上影响分类效果。在聚类之前,我们需要预先设定K的大小,但是我们很难确定分成几类是最佳的,比如上面的数据集中,显然分为2类,即K = 2最好,但是当数据量很大时,我们预先无法判断。
对离群点和噪声点敏感。如果在上述数据集中添加一个噪音点,这个噪音点独立成一个类。很显然,如果K=2,其余点是一类,噪音点自成一类,原本可以区分出来的点被噪音点影响,成为了一类了。如果K=3,噪音点也是自成一类,剩下的数据分成两类。这说明噪音点会极大的影响其他点的分类。
聚类分析特点
聚类分析的实质:是建立一种分类方法,它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。
层次聚类分析是根据观察值或变量之间的亲疏程度,将最相似的对象结合在 一起,以逐次聚合的方式(Agglomerative Clustering),它将观察值分类,直到最后所有样本都聚成一类。
层次聚类分析有两种形式,一种是对样本(个案)进行分类,称为Q型聚类;另一种是对研究对象的观察变量进行分类,称为R型聚类。