聚类算法得到的结果非此即彼_大数据分析之聚类算法

① 聚类算法数据分析

提到聚类算法，K-Means算是略懂数据分析的人都知道的一种。但K-Means也有其局限性，基本只能处理数值型聚类。而脊仔且按距离进行聚类而非密度，无法处理环樱困汪形图样。实际在使用聚类算法时，还有很多技巧性问题。

聚类算法需要各变量间相关性较低，可以采用DataFrame的corr()函数进行相关性计算。另外，聚类的变量要区分离散值和非离散值。对于非离散变量，需要进行标准化或归一化；对于离散变量，尺纤可以转换为虚拟变量，并采用{0, 1}编码。建议采用min-max标准化，这样和虚拟变量保持相同的相同范围。

对于包含非离散变量和虚拟变量的数据集（通常情况），建议采用K-Prototype而非K-Means算法进行聚类。在使用时可以标记相关虚拟变量，确保区别处理（实际虚拟变量采用K-Modes，非离散变量采用K-Means，再基于权重a进行结果合并）。

KPrototypes(n_clusters=np).fit(df.values, categorical=[1, 2])

其中的1, 2代表df数据集中的第1, 2列（从0计数）。评估聚类算法可以基于轮廓系数，对比不同的K值，在业务允许范围内得到最佳K值。建议的轮廓系数函数是silhouette_score，其最大值为1，越接近1越好，可以在不同算法情况下进行相对比较。

除轮廓系数外，还可以降维绘制散点图（通过TSNE降维），按聚类算法分类对散点进行着色，进而直观的进行聚类算法分类结果的判断。

TSNE(n_components=2)

总结来说，整个聚类算法数据分析的操作步骤如下：

1. 构建低相关性变量数据集（通过给高相关性变量设置固定值）；

2. 对非离散变量进行min-max归一化操作；

3. 对包含虚拟变量的数据集采用K-Prototype聚类算法，对只包含非离散变量的数据集采用K-Means算法；

4. 通过轮廓系数silhouette_score对K值进行循环测试，得到最佳K值；

5. 通过TSNE将数据集降维为两维显着特征值，并通过散点图，配合聚类算法分类结果配色对聚类算法分类结果进行合理判断；

6. 对聚类算法分类结果，结合业务逻辑进行解释，确保分类结果支撑业务分析。

② 如何评价聚类结果的好坏

1、聚类没有统一的评脊迅价指标，因为不同聚类算法的目标函数相差很大，有些是基于距离，有些是假设先验分布，有些是带有图聚类和谱分析性质，闷野灶还有些是基于密度的拿谱聚类距离。

2、应该嵌入到问题中进行评价，很多实际问题中，聚类仅仅是其中的一步，可以对比不聚。

聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题蚂扮。聚类分析又称群分析，它是研究分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

③ 四种聚类方法之比较

四种聚类方法之比较
介绍了较为常见的k-means、层次聚类、SOM、FCM等四种聚类算法，阐述了各自的原理和使用步骤，利用国际通用测试数据集IRIS对这些算法进行了验证和比较。结果显示对该测试类型数据，FCM和k-means都具有较高的准确度，层次聚类准确度最差，而SOM则耗时最长。
关键词:聚类算法；k-means；层次聚类；SOM；FCM
聚类分析是一种重要的人类行为，早在孩提时代，一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用，如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。
聚类技术[2]正在蓬勃发展，对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等。各种聚类方法也被不断提出和改进，而不同的方法适合于不同类型的数据，因此对各种聚类方法、聚类效果的比较成为值得研究的课题。
1 聚类算法的分类
目前，有大量的聚类算法[3]。而对于具体应用，聚类算法的选择取决于数据的类型、聚类的目的。如果聚类分析被用作描述或探查的工具，可以对同样的数据尝试多种算法，以发现数据可能揭示的结果。
主要的聚类算法可以划分为如下几类：划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法[4-6]。
每一类中都存在着得到广泛应用的算法，例如：划分方法中的k-means[7]聚类算法、层次方法中的凝聚型层次聚类算法[8]、基于模型方法中的神经网络[9]聚类算法等。
目前,聚类问题的研究不仅仅局限于上述的硬聚类，即每一个数据只能被归为一类，模糊聚类[10]也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶属函数来确定每个数据隶属于各个簇的程度，而不是将一个数据对象硬性地归类到某一簇中。目前已有很多关于模糊聚类的算法被提出，如着名的FCM算法等。
本文主要对k-means聚类算法、凝聚型层次聚类算法、神经网络聚类算法之SOM,以及模糊聚类的FCM算法通过通用测试数据集进行聚类效果的比较和分析。
2 四种常用聚类算法研究
2.1 k-means聚类算法
k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高，所以在对大规模数据进行聚类时被广泛应用。目前，许多算法均围绕着该算法进行扩展和改进。
k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。k-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。通常，采用平方误差准则，其定义如下：

这里E是数据库中所有对象的平方误差的总和，p是空间中的点，mi是簇Ci的平均值[9]。该目标函数使生成的簇尽可能紧凑独立，使用的距离度量是欧几里得距离,当然也可以用其他距离度量。k-means聚类算法的算法流程如下：
输入：包含n个对象的数据库和簇的数目k；
输出：k个簇，使平方误差准则最小。
步骤：
(1) 任意选择k个对象作为初始的簇中心；
(2) repeat；
(3) 根据簇中对象的平均值，将每个对象(重新)赋予最类似的簇；
(4) 更新簇的平均值，即计算每个簇中对象的平均值；
(5) until不再发生变化。
2.2 层次聚类算法
根据层次分解的顺序是自底向上的还是自上向下的，层次聚类算法分为凝聚的层次聚类算法和分裂的层次聚类算法。
凝聚型层次聚类的策略是先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类，它们只是在簇间相似度的定义上有所不同。四种广泛采用的簇间距离度量方法如下：

这里给出采用最小距离的凝聚层次聚类算法流程：
(1) 将每个对象看作一类，计算两两之间的最小距离；
(2) 将距离最小的两个类合并成一个新类；
(3) 重新计算新类与所有类之间的距离；
(4) 重复(2)、(3)，直到所有类最后合并成一类。
2.3 SOM聚类算法
SOM神经网络[11]是由芬兰神经网络专家Kohonen教授提出的，该算法假设在输入对象中存在一些拓扑结构或顺序，可以实现从输入空间(n维)到输出平面(2维)的降维映射，其映射具有拓扑特征保持性质,与实际的大脑处理有很强的理论联系。
SOM网络包含输入层和输出层。输入层对应一个高维的输入向量，输出层由一系列组织在2维网格上的有序节点构成，输入节点与输出节点通过权重向量连接。学习过程中，找到与之距离最短的输出层单元，即获胜单元，对其更新。同时，将邻近区域的权值更新，使输出节点保持输入向量的拓扑特征。
算法流程：
(1) 网络初始化，对输出层每个节点权重赋初值；
(2) 将输入样本中随机选取输入向量，找到与输入向量距离最小的权重向量；
(3) 定义获胜单元，在获胜单元的邻近区域调整权重使其向输入向量靠拢；
(4) 提供新样本、进行训练；
(5) 收缩邻域半径、减小学习率、重复，直到小于允许值，输出聚类结果。
2.4 FCM聚类算法
1965年美国加州大学柏克莱分校的扎德教授第一次提出了‘集合’的概念。经过十多年的发展，模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点，出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析，就是模糊聚类分析[12]。
FCM算法是一种以隶属度来确定每个数据点属于某个聚类程度的算法。该聚类算法是传统硬聚类算法的一种改进。

算法流程：
(1) 标准化数据矩阵；
(2) 建立模糊相似矩阵，初始化隶属矩阵；
(3) 算法开始迭代，直到目标函数收敛到极小值；
(4) 根据迭代结果，由最后的隶属矩阵确定数据所属的类，显示最后的聚类结果。
3 四种聚类算法试验
3.1 试验数据
实验中，选取专门用于测试分类、聚类算法的国际通用的UCI数据库中的IRIS[13]数据集，IRIS数据集包含150个样本数据，分别取自三种不同的莺尾属植物setosa、versicolor和virginica的花朵样本,每个数据含有4个属性，即萼片长度、萼片宽度、花瓣长度，单位为cm。在数据集上执行不同的聚类算法，可以得到不同精度的聚类结果。
3.2 试验结果说明
文中基于前面所述各算法原理及算法流程，用matlab进行编程运算，得到表1所示聚类结果。

如表1所示，对于四种聚类算法，按三方面进行比较：(1)聚错样本数：总的聚错的样本数，即各类中聚错的样本数的和；(2)运行时间：即聚类整个过程所耗费的时间，单位为s；(3)平均准确度：设原数据集有k个类,用ci表示第i类，ni为ci中样本的个数，mi为聚类正确的个数,则mi/ni为第i类中的精度，则平均精度为：

3.3 试验结果分析
四种聚类算法中，在运行时间及准确度方面综合考虑，k-means和FCM相对优于其他。但是，各个算法还是存在固定缺点：k-means聚类算法的初始点选择不稳定，是随机选取的，这就引起聚类结果的不稳定，本实验中虽是经过多次实验取的平均值，但是具体初始点的选择方法还需进一步研究；层次聚类虽然不需要确定分类数，但是一旦一个分裂或者合并被执行，就不能修正，聚类质量受限制；FCM对初始聚类中心敏感，需要人为确定聚类数，容易陷入局部最优解；SOM与实际大脑处理有很强的理论联系。但是处理时间较长，需要进一步研究使其适应大型数据库。
聚类分析因其在许多领域的成功应用而展现出诱人的应用前景，除经典聚类算法外，各种新的聚类方法正被不断被提出。

④ 聚类（Clustering）

首先我们先来认识一下什么是聚类任务。
聚类是“无监督学习（unsupervised learning）”中重要的一种。其目标是：通过对无标记的训练样本学习，来揭示数据内在的性质以及规律，为进一步的数据分析做基础。聚类的结果是一个个的簇（Cluster）。所以来说，聚类通常作为其他学习算法的先导，比如在分类问题中，常常先做聚类，基于聚类的不同簇来进行分类模型的训练。
我们先来认识空中一下聚类算法涉及到两个基本问题：性能度量 & 距离计算。后面我们再具体讲解聚类的经典算法。

由于聚类算法是无监督式学习，不依赖于样本的真实标记。所以聚类并不能像监督学习例如分类那样，通过计算对错（精确度/错误率）来评价学习器的好坏或者作为学习器的优化目标。一般来说，聚类有两类性能度量指标：外部指标和内部指标

所谓外部，是将聚类结果与某个参考模型的结果进行比较， 以参考模型的输出作为标准，来评价聚类的好坏。 假设聚类给出的结果为 λ，参考模型给出的结果是λ*，则我们将样本进行两两配对，定义：

内部指标不依赖任何外部模型，直接对聚类的结果进行评估。直观来说： 簇内高内聚，簇间低耦合 。定义：

我们从小学的距离都是欧氏距离。这里介绍几种其他的距离度量方法：

这里对于无需属性我们用闵可夫斯基距离就不能做，需要用VDM距离进行计算，对于离散属性滑磨的两个取值a和b，定义：

所以在计算两个样本的距离时候斗让山，将两种距离混合在一起进行计算：

原型聚类即“基于原型的聚类（prototype-based clustering）”，原型指的是样本空间中具有代表性的点（类似于K-Means 选取的中心点）。通常情况下来说，算法现对原型进行初始化，然后对原型进行迭代更新求解。而不同的初始化形式和不同的求解方法，最终会得到不同的算法。常见的 K-Means 便是基于簇中心来实现聚类；混合高斯聚类则是基于簇分布来实现聚类。下面我们具体看一下几种算聚类算法：

K-Means 聚类的思想十分简单， 首先随机指定类中心，根据样本与类中心的远近划分类簇；然后重新计算类中心，迭代直至收敛。 实际上，迭代的过程是通过计算得到的。其根本的优化目标是平方误差函数E：

其中 u_i 是簇 C_i 的均值向量。直观上来看，上式刻画了簇内样本围绕簇均值向量（可以理解为簇中心）的紧密程度，E值越小，则簇内样本的相似度越高。
具体的算法流程如下：

书上还给出了基于具体西瓜样本集的计算过程说明。可以看一下。

LVQ 也是基于原型的聚类算法，与K-Means 不同的是， LVQ使用样本的真实类标记来辅助聚类 。首先，LVQ根据样本的类标记，从各类中分别随机选出一个样本作为该类簇的原型，从而形成了一个 原型特征向量组 ，接着从样本集中随机挑选一个样本，计算其与原型向量组中每个向量的距离，并选取距离最小的向量所在的类簇作为该样本的划分结果，再与真实类标比较：

可以看到，K-Means 和 LVQ 都是以类中心作为原型指导聚类，而高斯混合聚类则采用 高斯分布 来描述原型。现在假设每个类簇中的样本都服从一个多维高斯分布，那么空间中的样本可以看做由K个多维高斯分布混合而成。
多维高斯的概密为：

密度聚类是基于密度的聚类，它从个样本分布的角度来考察样本之间的 可连接性 ，并基于可连接性（密度可达）不断拓展疆域（类簇）。最着名的就是DBSCAN（Density-Based Spatial Clustering of Applications with Noise），首先我们需要明白以下概念：

层次聚类试图在不同层次对数据集进行划分，从而形成属性的聚类结构。
这里介绍一种“自底向上”结合策略的 AGNES（AGglomerative NESting）算法。假设有N个待聚类的样本，AGNES算法的基本步骤如下：

可以看出其中最关键的一步就是 计算两个类簇的相似度 ，这里有几种度量方法：
（1）单链接（singal-linkage）：取类间最小距离

⑤ 聚类算法结果啥样

聚类是对数据空间中数据对象进行分类，位于同一类中的数据对象之间的相似度较大，而位于不同类之间的销咐举数据对象差异度较大。聚类是一种无监督学习，能自动对数据集进行划分。常见简丛的聚类算法：k-means，DBSCAN，CURE等算法。
简单地讲，聚类的结果就是得到数据集中数据对象的类别信息。例如，将以下几种物品玫瑰、红枫、松树、老虎、大亏碧象、绵羊等进行聚类，就应该得到玫瑰、红枫、松树属于同一类，老虎、大象、绵羊属于一类，可以对这自己对这两类赋予标记，如“植物”、“动物”这两个标记分别代表聚类空间中的两个类。。
更详细的请参考《数据挖掘概念与技术》。

⑥ 大数据分析之聚类算法

大数据分析之聚类算法
1. 什么是聚类算法
所谓聚类，就是比如给定一些元素或者对象，分散存储在数据库中，然后根据我们感兴趣的对象属性，对其进行聚集，同类的对象之间相似度高，不同类之间差异较大。最大特点就是事先不确定类别。
这其中最经典的算法就是KMeans算法，这是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。
KMeans算法本身思想比较简单，但是合理的确定K值和K个初始类簇中心点对于聚类效果的好坏有很大的影响。
聚类算法实现
假设对象集合为D，准备划分为k个簇。
基本算法步骤如下：
1、从D中随机取k个元素，作为k个簇的各自的中心。
2、分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇。
3、根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素各自维度的算术平均数。
4、将D中全部元素按照新的中心重新聚类。
5、重复第4步，直到聚类结果不再变化。
6、将结果输出。

核心Java代码如下：
/**
* 迭代计算每个点到各个中心点的距离，选择最小距离将该点划入到合适的分组聚类中，反复进行，直到
* 分组不再变化或者各个中心点不再变化为止。
* @return
*/
public List[] comput() {
List[] results = new ArrayList[k];//为k个分组，分别定义一个聚簇集合，未来放入元素。

boolean centerchange = true;//该变量存储中心点是否发生变化
while (centerchange) {
iterCount++;//存储迭代次数
centerchange = false;
for (int i = 0; i < k; i++) {
results[i] = new ArrayList<T>();
}
for (int i = 0; i < players.size(); i++) {
T p = players.get(i);
double[] dists = new double[k];
for (int j = 0; j < initPlayers.size(); j++) {
T initP = initPlayers.get(j);
/* 计算距离这里采用的公式是两个对象相关属性的平方和，最后求开方*/
double dist = distance(initP, p);
dists[j] = dist;
}

int dist_index = computOrder(dists);//计算该点到各个质心的距离的最小值，获得下标
results[dist_index].add(p);//划分到对应的分组。
}
/*
* 将点聚类之后，重新寻找每个簇的新的中心点，根据每个点的关注属性的平均值确立新的质心。
*/
for (int i = 0; i < k; i++) {
T player_new = findNewCenter(results[i]);
System.out.println("第"+iterCount+"次迭代，中心点是："+player_new.toString());
T player_old = initPlayers.get(i);
if (!IsPlayerEqual(player_new, player_old)) {
centerchange = true;
initPlayers.set(i, player_new);
}

}

}

return results;
}
上面代码是其中核心代码，我们根据对象集合List和提前设定的k个聚集,最终完成聚类。我们测试一下，假设要测试根据NBA球员的场均得分情况，进行得分高中低的聚集，很简单，高得分在一组，中等一组，低得分一组。
我们定义一个Player类，里面有属性goal，并录入数据。并设定分组数目为k=3。
测试代码如下:
List listPlayers = new ArrayList();
Player p1 = new Player();
p1.setName(“mrchi1”);
p1.setGoal(1);
p1.setAssists(8);
listPlayers.add(p1);

Player p2 = new Player();
p2.setName("mrchi2");
p2.setGoal(2);
listPlayers.add(p2);

Player p3 = new Player();
p3.setName("mrchi3");
p3.setGoal(3);
listPlayers.add(p3);
//其他对象定义此处略。制造几个球员的对象即可。
Kmeans<Player> kmeans = new Kmeans<Player>(listPlayers, 3);
List<Player>[] results = kmeans.comput();
for (int i = 0; i < results.length; i++) {
System.out.println("类别" + (i + 1) + "聚集了以下球员：");
List<Player> list = results[i];
for (Player p : list) {
System.out.println(p.getName() + "--->" + p.getGoal()

}
}
算法运行结果：

可以看出中心点经历了四次迭代变化，最终分类结果也确实是相近得分的分到了一组。当然这种算法有缺点，首先就是初始的k个中心点的确定非常重要，结果也有差异。可以选择彼此距离尽可能远的K个点，也可以先对数据用层次聚类算法进行聚类，得到K个簇之后，从每个类簇中选择一个点，该点可以是该类簇的中心点，或者是距离类簇中心点最近的那个点。

⑦ 数据挖掘干货总结（四）--聚类算法

本文共计2680字，预计阅读时长七分钟

聚类算法

一、本质

将数据划分到不同的类里，使相似的数据在同一类里，不相似的数据在不同类里

二、 分类算法用来解决什么问题

文本聚类、图像聚类和商品聚类，便于发现规律，以解决数据稀疏问题

三、 聚类算法基础知识

1. 层次聚类 vs 非层次聚类

– 不同类之间有无包含关系

2. 硬聚类 vs 软聚类

– 硬聚类：每个对象只属于一个类

– 软聚类：每个对象以某个概率属于每个类

3. 用向量表示对象

– 每个对象用一个向量表示，可以视为高维空间的一个点

– 所有对象形成数据空间（矩阵）

– 相似度计算：Cosine、点积、质心距离

4. 用矩阵列出对象之间的距离、相似度

5. 用字典保存上述矩阵（节省空间）

D={(1,1):0,(1,2):2,(1,3):6...(5,5):0}

6. 评价方法

– 内部评价法（Internal Evalution）：

• 没有外部标准，非监督式

• 同类是否相似，跨类是否相异

DB值越小聚类效果越好，反之，越不好

– 外部评价法（External Evalution）：

• 准确度（accuracy）: (C11+C22) / (C11 + C12 + C21 + C22)

• 精度（Precision）: C11 / (C11 + C21 )

• 召回（Recall）: C11 / (C11 + C12 )

• F值（F-measure）：

β表示对精度P的重视程度，越大越重视，默认设置为1，即变成了F值，F较高时则能说明聚类效果较好。

四、 有哪些聚类算法

主要分为 层次化聚类算法 ， 划分式聚类算法 ， 基于密度的聚类算法 ， 基于网格的聚类算法 ， 基于模型的聚类算法等 。

4.1 层次化聚类算法

又称树聚类算法，透过一种层次架构方式，反复将数据进行分裂或聚合。典型的有BIRCH算法，CURE算法，CHAMELEON算法，Sequence data rough clustering算法,Between groups average算法,Furthest neighbor算法,Neares neighbor算法等。

凝聚型层次聚类 ：

先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者某个终结条件被满足。

算法流程：

1. 将每个对象看作一类，计算两两之间的最小距离；

2. 将距离最小的两个类合并成一个新类；

3. 重新计算新类与所有类之间的距离；

4. 重复2、3，直到所有类最后合并成一类。

特点：

1. 算法简单

2. 层次用于概念聚类（生成概念、文档层次树）

3. 聚类对象的两种表示法都适用

4. 处理大小不同的簇

5. 簇选取步骤在树状图生成之后

4.2 划分式聚类算法

预先指定聚类数目或聚类中心，反复迭代逐步降低目标函数误差值直至收敛，得到最终结果。K-means,K-modes-Huang,K-means-CP,MDS_CLUSTER, Feature weighted fuzzy clustering，CLARANS等

经典K-means：

算法流程：

1. 随机地选择k个对象，每个对象初始地代表了一个簇的中心；

2. 对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇；

3. 重新计算每个簇的平均值，更新为新的簇中心；

4. 不断重复2、3，直到准则函数收敛。

特点：

1.K的选择

2.中心点的选择

– 随机

– 多轮随机：选择最小的WCSS

3.优点

– 算法简单、有效

– 时间复杂度：O(nkt)

4.缺点

– 不适于处理球面数据

– 密度、大小不同的聚类，受K的限制，难于发现自然的聚类

4.3 基于模型的聚类算法

为每簇假定了一个模型，寻找数据对给定模型的最佳拟合，同一”类“的数据属于同一种概率分布，即假设数据是根据潜在的概率分布生成的。主要有基于统计学模型的方法和基于神经网络模型的方法，尤其以基于概率模型的方法居多。一个基于模型的算法可能通过构建反应数据点空间分布的密度函数来定位聚类。基于模型的聚类试图优化给定的数据和某些数据模型之间的适应性。

SOM 神经网络算法 ：

该算法假设在输入对象中存在一些拓扑结构或顺序，可以实现从输入空间(n维)到输出平面(2维)的降维映射，其映射具有拓扑特征保持性质,与实际的大脑处理有很强的理论联系。

SOM网络包含输入层和输出层。输入层对应一个高维的输入向量，输出层由一系列组织在2维网格上的有序节点构成，输入节点与输出节点通过权重向量连接。学习过程中，找到与之距离最短的输出层单元，即获胜单元，对其更新。同时，将邻近区域的权值更新，使输出节点保持输入向量的拓扑特征。

算法流程：

1. 网络初始化，对输出层每个节点权重赋初值；

2. 将输入样本中随机选取输入向量，找到与输入向量距离最小的权重向量；

3. 定义获胜单元，在获胜单元的邻近区域调整权重使其向输入向量靠拢；

4. 提供新样本、进行训练；

5. 收缩邻域半径、减小学习率、重复，直到小于允许值，输出聚类结果。

4.4 基于密度聚类算法

只要邻近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类，擅于解决不规则形状的聚类问题，广泛应用于空间信息处理,SGC,GCHL，DBSCAN算法、OPTICS算法、DENCLUE算法。

DBSCAN：

对于集中区域效果较好，为了发现任意形状的簇，这类方法将簇看做是数据空间中被低密度区域分割开的稠密对象区域；一种基于高密度连通区域的基于密度的聚类方法，该算法将具有足够高密度的区域划分为簇，并在具有噪声的空间数据中发现任意形状的簇。

4.5 基于网格的聚类算法

基于网格的方法把对象空间量化为有限数目的单元，形成一个网格结构。所有的聚类操作都在这个网格结构（即量化空间）上进行。这种方法的主要优点是它的处理速度很快，其处理速度独立于数据对象的数目，只与量化空间中每一维的单元数目有关。但这种算法效率的提高是以聚类结果的精确性为代价的。经常与基于密度的算法结合使用。代表算法有STING算法、CLIQUE算法、WAVE-CLUSTER算法等。

⑧ 聚类算法

1. 概述

K-means聚类算法也称k均值聚类算法，是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

2. 算法核心思想

K-means聚类算法是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

3. 算法实现步骤

1、首先确定一个k值，即我们希望将数据集经过聚类得到k个集合。

2、从数据集中随机选择k个数据点作为质心。

3、对数据集中每一个点，计算其与每一个质心的距离（如欧式距离），离哪个质心近，就划分到那个质心所属的集合。

4、把所有数据归好集合后，一共有k个集合。然后重新计算每个集合的质心。

5、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值（表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛），我们可以认为聚类已经达到期望的结果，算法终止。

6、如果新质心和原质心距离变化很大，需要迭代3~5步骤。

4. 算法步骤图解

上图a表达了初始的数据集，假设k=2。在图b中，我们随机选择了两个k类所对应的类别质心，即图中的红色质心和蓝色质心，然后分别求样本中所有点到这两个质心的距离，并标记每个样本的类别为和该样本距离最小的质心的类别，如图c所示，经过计算样本和红色质心和蓝色质心的距离，我们得到了所有样本点的第一轮迭代后的类别。此时我们对我们当前标记为红色和蓝色的点分别求其新的质心，如图d所示，新的红色质心和蓝色质心的位置已经发生了变动。图e和图f重复了我们在图c和图d的过程，即将所有点的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的两个类别如图f。

K-means术语：

簇：所有数据的点集合，簇中的对象是相似的。

质心：簇中所有点的中心（计算所有点的中心而来）

5. K-means算法优缺点

优点：

1、原理比较简单，实现也是很容易，收敛速度快。

2、当结果簇是密集的，而簇与簇之间区别明显时, 它的效果较好。

3、主要需要调参的参数仅仅是簇数k。

缺点：

1、K值需要预先给定，很多情况下K值的估计是非常困难的。

2、K-Means算法对初始选取的质心点是敏感的，不同的随机种子点得到的聚类结果完全不同，对结果影响很大。

3、对噪音和异常点比较的敏感。用来检测异常值。

4、采用迭代方法，可能只能得到局部的最优解，而无法得到全局的最优解。

⑨ 假设分为两类k=2，给定如下进行聚类的原组{2，4，10，12，3，20，30，8，11，25}

给定的数据集包含10个数值，需要将它们分为两类，可以采用k-means聚类算法进行处理。k-means算法是一种常见的聚类算法，通过计算每个点距离各个聚类中心的距离，将数据集分配到距离最近的聚类中心中。

在这个例子中，可以先随机选择两个初始聚类中心，比如2和30。然后汪隐计算每个点到这喊陵敬两个聚类中心的距离，将每个点分配到距离最近的聚类中心中。完成一轮分配后，需要重新计算每个聚类中心的坐标，并再次进行分配，直到坐标不再发生变化或者达到预设的迭代次数为止。在这个例子中，可以得到以下的聚类结果：

第一类：2, 3, 4, 8
第二类：10, 11, 12, 20, 25, 30

通过k-means聚类算法，给定的数据集成功地被分为两类。需要注意的是，聚类郑慎算法的结果可能受到初始聚类中心的选择和参数设置的影响，需要结合具体场景进行调整和优化。

⑩ 模糊C均值聚类算法（FCM）

【嵌牛导读】FCM算法是一种基于划分的聚类算法，它的思想就是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进，普通C均值算法对于数据的划分是硬性的，而FCM则是一种柔性的模糊划分。

【嵌牛提问】FCM有什么用？

【嵌牛鼻子】模糊C均值聚类算法

【嵌牛正文】

聚类分析是多元统计分析的一种，也是无监督模式识别的一个重要分支，在模式分类、图像处理和模糊规则处理等众多领域中获得最广泛的应用。它把一个没有类别标记的样本按照某种准则划分为若干子集，使相似的样本尽可能归于一类，而把不相似的样本划分到不同的类中。硬聚类把每个待识别的对象严格的划分某类中，具有非此即彼的性质，而模糊聚类建立了样本对类别的不确定描述，更能客观的反应客观世界，从而成为聚类分析的主流。

模糊聚类算法是一种基于函数最优方法的聚类算法，使用微积分计算技术求最优代价函数，在基于概率算法的聚类方法中将使用概率密度函数，为此要假定合适的模型，模糊聚类算法的向量可以同时属于多个聚类，从而摆脱上述问题。模糊聚类分析算法大致可分为三类：

1）分类数不定，根据不同要求对事物进行动态聚类，此类方法是基于模糊等价矩阵聚类的，称为模糊等价矩阵动态聚类分析法。

2）分类数给定，寻找出对事物的最佳分析方案，此类方法是基于目标函数聚类的，称为模糊C 均值聚类。

3）在摄动有意义的情况下，根据模糊相似矩阵聚类，此类方法称为基于摄动的模糊聚类分析法。

我所学习的是模糊C 均值聚类算法，要学习模糊C 均值聚类算法要先了解虑属度的含义，隶属度函数是表示一个对象x 隶属于集合A 的程度的函数，通常记做μA (x)，其自变量范围是所有可能属于集合A 的对象（即集合A 所在空间中的所有点），取值范围是[0,1]，即0<=μA (x)<=1。μA (x)=1表示x 完全隶属于集合A ，相当于传统集合概念上的x ∈A 。一个定义在空间X={x}上的隶属度函数就定义了一个模糊集合A ，或者叫定义在论域X={x}上的模糊子集A 。对于有限个对象x 1，x 2，……，x n 模糊集合A 可以表示为：A ={(μA (x i ), x i ) |x i ∈X } (6.1)

有了模糊集合的概念，一个元素隶属于模糊集合就不是硬性的了，在聚类的问题中，可以把聚类生成的簇看成模糊集合，因此，每个样本点隶属于簇的隶属度就是[0，1]区间里面的值。

FCM 算法需要两个参数一个是聚类数目C ，另一个是参数m 。一般来讲C 要远远小于聚类样本的总个数，同时要保证C>1。对于m ，它是一个控制算法的柔性的参数，如果m 过大，则聚类效果会很次，而如果m 过小则算法会接近HCM 聚类算法。算法的输出是C 个聚类中心点向量和C*N的一个模糊划分矩阵，这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类中心表示的是每个类的平均特征，可以认为是这个类的代表点。从算法的推导过程中我们不难看出，算法对于满足正态分布的数据聚类效果会很好。

通过实验和算法的研究学习，不难发现FCM算法的优缺点：

首先，模糊c 均值泛函Jm 仍是传统的硬c 均值泛函J1 的自然推广。J1 是一个应用很广泛的聚类准则，对其在理论上的研究已经相当的完善，这就为Jm 的研究提供了良好的条件。

其次，从数学上看，Jm与Rs的希尔伯特空间结构(正交投影和均方逼近理论) 有密切的关联，因此Jm 比其他泛函有更深厚的数学基础。

最后，FCM 聚类算法不仅在许多邻域获得了非常成功的应用，而且以该算法为基础，又提出基于其他原型的模糊聚类算法，形成了一大批FCM类型的算法，比如模糊c线( FCL) ，模糊c面(FCP) ，模糊c壳(FCS) 等聚类算法，分别实现了对呈线状、超平面状和“薄壳”状结构模式子集(或聚类) 的检测。

模糊c均值算法因设计简单，解决问题范围广，易于应用计算机实现等特点受到了越来越多人的关注，并应用于各个领域。但是，自身仍存在的诸多问题，例如强烈依赖初始化数据的好坏和容易陷入局部鞍点等，仍然需要进一步的研究。

导航:首页 > 源码编译 > 聚类算法得到的结果非此即彼

聚类算法得到的结果非此即彼

与聚类算法得到的结果非此即彼相关的资料