python实现层次聚类_怎么用python进行聚类分析

❶ python对数据进行聚类怎么显示数据分类

将其整理成数据集为：
[ [1,0,"yes"],[1,1,"yes"],[0,1,"yes"],[0,0,"no"],[1,0,"no"] ]
算法过程：

1、计算原始的信息熵。
2、依次计算数据集中每个样本的每个特征的信息熵。
3、比较不同特征信息熵的大小，选出信息熵最大的特征值并输出。
运行结果：
col : 0 curInfoGain : 2.37744375108 baseInfoGain : 0.0
col : 1 curInfoGain : 1.37744375108 baseInfoGain : 2.37744375108
bestInfoGain : 2.37744375108 bestFeature: 0
结果分析：
说明按照第一列，即有无喉结这个特征来进行分类的效果更好。
思考：
1、能否利用决策树算法，将样本最终的分类结果进行输出？如样本1,2,3属于男性，4属于女性。

2、示例程序生成的决策树只有一层，当特征量增多的时候，如何生成具有多层结构的决策树？
3、如何评判分类结果的好坏？
在下一篇文章中，我将主要对以上三个问题进行分析和解答。如果您也感兴趣，欢迎您订阅我的文章，也可以在下方进行评论，如果有疑问或认为不对的地方，您也可以留言，我将积极与您进行解答。
完整代码如下：
from math import log
"""
计算信息熵
"""
def calcEntropy(dataset):
diclabel = {} ## 标签字典，用于记录每个分类标签出现的次数
for record in dataset:
label = record[-1]
if label not in diclabel.keys():
diclabel[label] = 0
diclabel[label] += 1
### 计算熵
entropy = 0.0
cnt = len(dataset)
for label in diclabel.keys():
prob = float(1.0 * diclabel[label]/cnt)
entropy -= prob * log(prob,2)
return entropy
def initDataSet():
dataset = [[1,0,"yes"],[1,1,"yes"],[0,1,"yes"],[0,0,"no"],[1,0,"no"]]
label = ["male","female"]
return dataset,label
#### 拆分dataset ,根据指定的过滤选项值，去掉指定的列形成一个新的数据集
def splitDataset(dataset , col, value):
retset = [] ## 拆分后的数据集
for record in dataset:
if record[col] == value :
recedFeatVec = record[:col]
recedFeatVec.extend(record[col+1:]) ### 将指定的列剔除
retset.append(recedFeatVec) ### 将新形成的特征值列表追加到返回的列表中
return retset
### 找出信息熵增益最大的特征值
### 参数：
### dataset : 原始的数据集
def findBestFeature(dataset):
numFeatures = len(dataset[0]) - 1 ### 特征值的个数
baseEntropy = calcEntropy(dataset) ### 计算原始数据集的熵
baseInfoGain = 0.0 ### 初始信息增益
bestFeature = -1 ### 初始的最优分类特征值索引
### 计算每个特征值的熵
for col in range(numFeatures):
features = [record[col] for record in dataset] ### 提取每一列的特征向量如此处col= 0 ，则features = [1,1,0,0]
uniqueFeat = set(features)
curInfoGain = 0 ### 根据每一列进行拆分，所获得的信息增益
for featVal in uniqueFeat:
subDataset = splitDataset(dataset,col,featVal) ### 根据col列的featVal特征值来对数据集进行划分
prob = 1.0 * len(subDataset)/numFeatures ### 计算子特征数据集所占比例
curInfoGain += prob * calcEntropy(subDataset) ### 计算col列的特征值featVal所产生的信息增益
# print "col : " ,col , " featVal : " , featVal , " curInfoGain :" ,curInfoGain ," baseInfoGain : " ,baseInfoGain
print "col : " ,col , " curInfoGain :" ,curInfoGain ," baseInfoGain : " ,baseInfoGain
if curInfoGain > baseInfoGain:
baseInfoGain = curInfoGain
bestFeature = col
return baseInfoGain,bestFeature ### 输出最大的信息增益，以获得该增益的列
dataset,label = initDataSet()
infogain , bestFeature = findBestFeature(dataset)
print "bestInfoGain :" , infogain, " bestFeature:",bestFeature

❷ 谱聚类（Spectral clustering）（python实现）

谱聚类概念 ：
谱聚类是一种基于图论的聚类方法，通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据聚类的母的。谱聚类可以理解为将高维空间的数据映射到低维，然后在低维空间用其它聚类算法（如KMeans）进行聚类。

算法步骤

1 计算相似度矩阵 W
2 计算度矩阵 D
3 计算拉普拉斯矩阵L=D-W
4 计算L的特征值，将特征值从小到大排序，取前k个特征值.将这个特征值向量转换为矩阵
5 通过其他聚类算法对其进行聚类，如k-means
详细公式和概念请到大佬博客

相比较PCA降维中取前k大的特征值对应的特征向量，这里取得是前k小的特征值对应的特征向量。但是上述的谱聚类算法并不是最优的，接下来我们一步一步的分解上面的步骤，总结一下在此基础上进行优化的谱聚类的版本。

python实现
例子一：使用谱聚类从噪声背景中分割目标

效果图

例子2：分割图像中硬币的区域

效果图

注意
1）当聚类的类别个数较小的时候，谱聚类的效果会很好，但是当聚类的类别个数较大的时候，则不建议使用谱聚类；

（2）谱聚类算法使用了降维的技术，所以更加适用于高维数据的聚类；

（3）谱聚类只需要数据之间的相似度矩阵，因此对于处理稀疏数据的聚类很有效。这点传统聚类算法（比如K-Means）很难做到

（4）谱聚类算法建立在谱图理论基础上，与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类且收敛于全局最优解
（5）谱聚类对相似度图的改变和聚类参数的选择非常的敏感；

（6）谱聚类适用于均衡分类问题，即各簇之间点的个数相差不大，对于簇之间点个数相差悬殊的聚类问题，谱聚类则不适用；

参考
谱聚类算法介绍
sklearn官网

❸ python怎么做聚类树状图

#-*-coding:utf-8-*-importmathimportpylabaspl#数据集：每三个是一组分别是西瓜的编号，密度，含糖量data="""
1,0.697,0.46,2,0.774,0.376,3,0.634,0.264,4,0.608,0.318,5,0.556,0.215,
6,0.403,0.237,7,0.481,0.149,8,0.437,0.211,9,0.666,0.091,10,0.243,0.267,
11,0.245,0.057,12,0.343,0.099,13,0.639,0.161,14,0.657,0.198,15,0.36,0.37,
16,0.593,0.042,17,0.719,0.103,18,0.359,0.188,19,0.339,0.241,20,0.282,0.257,
21,0.748,0.232,22,0.714,0.346,23,0.483,0.312,24,0.478,0.437,25,0.525,0.369,
26,0.751,0.489,27,0.532,0.472,28,0.473,0.376,29,0.725,0.445,30,0.446,0.459"""#数据处理dataset是30个样本（密度，含糖量）的列表a=data.split(',')
dataset=[(float(a[i]),float(a[i+1]))foriinrange(1,len(a)-1,3)]#计算欧几里得距离,a,b分别为两个元组defdist(a,b):
returnmath.sqrt(math.pow(a[0]-b[0],2)+math.pow(a[1]-b[1],2))#dist_mindefdist_min(Ci,Cj):
returnmin(dist(i,j)foriinCiforjinCj)#dist_maxdefdist_max(Ci,Cj):
returnmax(dist(i,j)foriinCiforjinCj)#dist_avgdefdist_avg(Ci,Cj):
returnsum(dist(i,j)foriinCiforjinCj)/(len(Ci)*len(Cj))#找到距离最小的下标deffind_Min(M):
min=1000
x=0;y=0
foriinrange(len(M)):forjinrange(len(M[i])):ifi!=jandM[i][j]<min:
min=M[i][j];x=i;y=jreturn(x,y,min)#算法模型：defAGNES(dataset,dist,k):
#初始化C和M
C=[];M=[]foriindataset:
Ci=[]
Ci.append(i)
C.append(Ci)foriinC:
Mi=[]forjinC:
Mi.append(dist(i,j))
M.append(Mi)
q=len(dataset)#合并更新
whileq>k:
x,y,min=find_Min(M)
C[x].extend(C[y])
C.remove(C[y])
M=[]foriinC:
Mi=[]forjinC:
Mi.append(dist(i,j))
M.append(Mi)
q-=1
returnC#画图defdraw(C):
colValue=['r','y','g','b','c','k','m']foriinrange(len(C)):
coo_X=[]#x坐标列表
coo_Y=[]#y坐标列表
forjinrange(len(C[i])):
coo_X.append(C[i][j][0])
coo_Y.append(C[i][j][1])
pl.scatter(coo_X,coo_Y,marker='x',color=colValue[i%len(colValue)],label=i)

pl.legend(loc='upperright')
pl.show()

C=AGNES(dataset,dist_avg,3)
draw(C)

❹ 如何用python对文本进行聚类

实现原理：
首先从Tourist_spots_5A_BD.txt中读取景点信息，然后通过调用无界面浏览器PhantomJS（Firefox可替代）访问网络链接"http://ke..com/"，通过Selenium获取输入对话框ID，输入关键词如"故宫"，再访问该网络页面。最后通过分析DOM树结构获取摘要的ID并获取其值。核心代码如下：
driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

PS：Selenium更多应用于自动化测试，推荐Python爬虫使用scrapy等开源工具。
# coding=utf-8
"""
Created on 2015-09-04 @author: Eastmount
"""

import time
import re
import os
import sys
import codecs
import shutil
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")
#driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots
def getInfobox(entityName, fileName):
try:
#create paths and txt files
print u'文件名称: ', fileName
info = codecs.open(fileName, 'w', 'utf-8')

#locate input notice: 1.visit url by unicode 2.write files
#Error: Message: Element not found in the cache -
# Perhaps the page has changed since it was looked up
#解决方法: 使用Selenium和Phantomjs
print u'实体名称: ', entityName.rstrip('\n')
driver.get("http://ke..com/")
elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")
elem_inp.send_keys(entityName)
elem_inp.send_keys(Keys.RETURN)
info.write(entityName.rstrip('\n')+'\r\n') #codecs不支持'\n'换行
time.sleep(2)

#load content 摘要
elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")
for value in elem_value:
print value.text
info.writelines(value.text + '\r\n')
time.sleep(2)

except Exception,e: #'utf8' codec can't decode byte
print "Error: ",e
finally:
print '\n'
info.close()

#Main function
def main():
#By function get information
path = "BaiSpider\\"
if os.path.isdir(path):
shutil.rmtree(path, True)
os.makedirs(path)
source = open("Tourist_spots_5A_BD.txt", 'r')
num = 1
for entityName in source:
entityName = unicode(entityName, "utf-8")
if u'故宫' in entityName: #else add a '?'
entityName = u'北京故宫'
name = "%04d" % num
fileName = path + str(name) + ".txt"
getInfobox(entityName, fileName)
num = num + 1
print 'End Read Files!'
source.close()
driver.close()

if __name__ == '__main__':
main()

❺ python scipy怎么做层次聚类

Python机器学习包里面的cluster提供了很多聚类算法，其中ward_tree实现了凝聚层次聚类算法。但是没有看明白ward_tree的返回值代表了什么含义，遂决定寻找别的实现方式。经过查找，发现scipy.cluster.hierarchy.fclusterdata能够实现层次聚类。

❻ python怎么用sklearn包进行聚类

#-*-coding:utf-8-*-
fromsklearn.clusterimportKMeans
fromsklearn.externalsimportjoblib
importnumpy

final=open('c:/test/final.dat','r')

data=[line.strip().split('	')forlineinfinal]
feature=[[float(x)forxinrow[3:]]forrowindata]

#调用kmeans类
clf=KMeans(n_clusters=9)
s=clf.fit(feature)
prints

#9个中心
printclf.cluster_centers_

#每个样本所属的簇
printclf.labels_

#用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数
printclf.inertia_

#进行预测
printclf.predict(feature)

#保存模型
joblib.mp(clf,'c:/km.pkl')

#载入保存的模型
clf=joblib.load('c:/km.pkl')

'''
#用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数
foriinrange(5,30,1):
clf=KMeans(n_clusters=i)
s=clf.fit(feature)
printi,clf.inertia_
'''

❼ 请问如何用python对矩阵做层次聚类的问题

这个数据本身没有什么意义啊。所以聚类结果正确性也无法检验。

❽ 如何用Python对人员轨迹聚类

把你的 xy 变换成 onehot编码，这样的话聚类算法就都可以兼容了，
KMeans， DBScan，层次聚类，等等都是可以的

❾ 怎么用python进行聚类分析

、K均值聚类K-Means算法思想简单，效果却很好，是最有名的聚类算法。聚类算法的步骤如下：1：初始化K个样本作为初始聚类中心；2：计算每个样本点到K个中心的距离，选择最近的中心作为其分类，直到所有样本点分类完毕；3：分别计算K个类中所有样本的质心，作为新的中心点，完成一轮迭代。通常的迭代结束条件为新的质心与之前的质心偏移值小于一

❿ python代码如何应用系统聚类和K-means聚类法进行聚类分析然后选择变量，建立适当的模型

-Means聚类算法
k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。

随机选择k个点作为初始的聚类中心。
对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇。
对每个簇，计算所有点的均值作为新的聚类中心。
重复2，3直到聚类中心不再发生改变

Figure 1

K-means的应用
数据介绍：
现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的八大主要变量数据，这八大变量分别是：食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住以及杂项商品和服务。利用已有数据，对31个省份进行聚类。

实验目的：
通过聚类，了解1999年各个省份的消费水平在国内的情况。

技术路线：
sklearn.cluster.Kmeans

数据实例：

导航:首页 > 编程语言 > python实现层次聚类

python实现层次聚类

与python实现层次聚类相关的资料