python对电影评分进行聚类_怎么用python进行聚类分析

1. python聚类如何解释

代码如下：# -*- coding: utf-8 -*-from sklearn.cluster import KMeansfrom sklearn.externals import joblibimport numpy final = open('c:/test/final.dat' , 'r') data = [line.strip().split('\t') for line in final]feature = [[float(x) for x in row[3:]] for row in data] #调用kmeans类clf = KMeans(n_clusters=9)s = clf.fit(feature)print s #9个中心print clf.cluster_centers_ #每个样本所属的簇print clf.labels_ #用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数print clf.inertia_ #进行预测print clf.predict(feature) #保存模型joblib.mp(clf , 'c:/km.pkl') #载入保存的模型clf = joblib.load('c:/km.pkl') '''#用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数for i in range(5,30,1): clf = KMeans(n_clusters=i) s = clf.fit(feature) print i , clf.inertia_

2. python怎么用sklearn包进行聚类

#-*-coding:utf-8-*-
fromsklearn.clusterimportKMeans
fromsklearn.externalsimportjoblib
importnumpy

final=open('c:/test/final.dat','r')

data=[line.strip().split('	')forlineinfinal]
feature=[[float(x)forxinrow[3:]]forrowindata]

#调用kmeans类
clf=KMeans(n_clusters=9)
s=clf.fit(feature)
prints

#9个中心
printclf.cluster_centers_

#每个样本所属的簇
printclf.labels_

#用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数
printclf.inertia_

#进行预测
printclf.predict(feature)

#保存模型
joblib.mp(clf,'c:/km.pkl')

#载入保存的模型
clf=joblib.load('c:/km.pkl')

'''
#用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数
foriinrange(5,30,1):
clf=KMeans(n_clusters=i)
s=clf.fit(feature)
printi,clf.inertia_
'''

3. python对数据进行聚类怎么显示数据分类

将其整理成数据集为：
[ [1,0,"yes"],[1,1,"yes"],[0,1,"yes"],[0,0,"no"],[1,0,"no"] ]
算法过程：

1、计算原始的信息熵。
2、依次计算数据集中每个样本的每个特征的信息熵。
3、比较不同特征信息熵的大小，选出信息熵最大的特征值并输出。
运行结果：
col : 0 curInfoGain : 2.37744375108 baseInfoGain : 0.0
col : 1 curInfoGain : 1.37744375108 baseInfoGain : 2.37744375108
bestInfoGain : 2.37744375108 bestFeature: 0
结果分析：
说明按照第一列，即有无喉结这个特征来进行分类的效果更好。
思考：
1、能否利用决策树算法，将样本最终的分类结果进行输出？如样本1,2,3属于男性，4属于女性。

2、示例程序生成的决策树只有一层，当特征量增多的时候，如何生成具有多层结构的决策树？
3、如何评判分类结果的好坏？
在下一篇文章中，我将主要对以上三个问题进行分析和解答。如果您也感兴趣，欢迎您订阅我的文章，也可以在下方进行评论，如果有疑问或认为不对的地方，您也可以留言，我将积极与您进行解答。
完整代码如下：
from math import log
"""
计算信息熵
"""
def calcEntropy(dataset):
diclabel = {} ## 标签字典，用于记录每个分类标签出现的次数
for record in dataset:
label = record[-1]
if label not in diclabel.keys():
diclabel[label] = 0
diclabel[label] += 1
### 计算熵
entropy = 0.0
cnt = len(dataset)
for label in diclabel.keys():
prob = float(1.0 * diclabel[label]/cnt)
entropy -= prob * log(prob,2)
return entropy
def initDataSet():
dataset = [[1,0,"yes"],[1,1,"yes"],[0,1,"yes"],[0,0,"no"],[1,0,"no"]]
label = ["male","female"]
return dataset,label
#### 拆分dataset ,根据指定的过滤选项值，去掉指定的列形成一个新的数据集
def splitDataset(dataset , col, value):
retset = [] ## 拆分后的数据集
for record in dataset:
if record[col] == value :
recedFeatVec = record[:col]
recedFeatVec.extend(record[col+1:]) ### 将指定的列剔除
retset.append(recedFeatVec) ### 将新形成的特征值列表追加到返回的列表中
return retset
### 找出信息熵增益最大的特征值
### 参数：
### dataset : 原始的数据集
def findBestFeature(dataset):
numFeatures = len(dataset[0]) - 1 ### 特征值的个数
baseEntropy = calcEntropy(dataset) ### 计算原始数据集的熵
baseInfoGain = 0.0 ### 初始信息增益
bestFeature = -1 ### 初始的最优分类特征值索引
### 计算每个特征值的熵
for col in range(numFeatures):
features = [record[col] for record in dataset] ### 提取每一列的特征向量如此处col= 0 ，则features = [1,1,0,0]
uniqueFeat = set(features)
curInfoGain = 0 ### 根据每一列进行拆分，所获得的信息增益
for featVal in uniqueFeat:
subDataset = splitDataset(dataset,col,featVal) ### 根据col列的featVal特征值来对数据集进行划分
prob = 1.0 * len(subDataset)/numFeatures ### 计算子特征数据集所占比例
curInfoGain += prob * calcEntropy(subDataset) ### 计算col列的特征值featVal所产生的信息增益
# print "col : " ,col , " featVal : " , featVal , " curInfoGain :" ,curInfoGain ," baseInfoGain : " ,baseInfoGain
print "col : " ,col , " curInfoGain :" ,curInfoGain ," baseInfoGain : " ,baseInfoGain
if curInfoGain > baseInfoGain:
baseInfoGain = curInfoGain
bestFeature = col
return baseInfoGain,bestFeature ### 输出最大的信息增益，以获得该增益的列
dataset,label = initDataSet()
infogain , bestFeature = findBestFeature(dataset)
print "bestInfoGain :" , infogain, " bestFeature:",bestFeature

4. python scipy怎么做层次聚类

Python机器学习包里面的cluster提供了很多聚类算法，其中ward_tree实现了凝聚层次聚类算法。但是没有看明白ward_tree的返回值代表了什么含义，遂决定寻找别的实现方式。经过查找，发现scipy.cluster.hierarchy.fclusterdata能够实现层次聚类。

5. 如何用python对文本进行聚类

实现原理：
首先从Tourist_spots_5A_BD.txt中读取景点信息，然后通过调用无界面浏览器PhantomJS（Firefox可替代）访问网络链接"http://ke..com/"，通过Selenium获取输入对话框ID，输入关键词如"故宫"，再访问该网络页面。最后通过分析DOM树结构获取摘要的ID并获取其值。核心代码如下：
driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

PS：Selenium更多应用于自动化测试，推荐Python爬虫使用scrapy等开源工具。
# coding=utf-8
"""
Created on 2015-09-04 @author: Eastmount
"""

import time
import re
import os
import sys
import codecs
import shutil
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")
#driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots
def getInfobox(entityName, fileName):
try:
#create paths and txt files
print u'文件名称: ', fileName
info = codecs.open(fileName, 'w', 'utf-8')

#locate input notice: 1.visit url by unicode 2.write files
#Error: Message: Element not found in the cache -
# Perhaps the page has changed since it was looked up
#解决方法: 使用Selenium和Phantomjs
print u'实体名称: ', entityName.rstrip('\n')
driver.get("http://ke..com/")
elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")
elem_inp.send_keys(entityName)
elem_inp.send_keys(Keys.RETURN)
info.write(entityName.rstrip('\n')+'\r\n') #codecs不支持'\n'换行
time.sleep(2)

#load content 摘要
elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")
for value in elem_value:
print value.text
info.writelines(value.text + '\r\n')
time.sleep(2)

except Exception,e: #'utf8' codec can't decode byte
print "Error: ",e
finally:
print '\n'
info.close()

#Main function
def main():
#By function get information
path = "BaiSpider\\"
if os.path.isdir(path):
shutil.rmtree(path, True)
os.makedirs(path)
source = open("Tourist_spots_5A_BD.txt", 'r')
num = 1
for entityName in source:
entityName = unicode(entityName, "utf-8")
if u'故宫' in entityName: #else add a '?'
entityName = u'北京故宫'
name = "%04d" % num
fileName = path + str(name) + ".txt"
getInfobox(entityName, fileName)
num = num + 1
print 'End Read Files!'
source.close()
driver.close()

if __name__ == '__main__':
main()

6. python代码如何应用系统聚类和K-means聚类法进行聚类分析然后选择变量，建立适当的模型

-Means聚类算法
k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。

随机选择k个点作为初始的聚类中心。
对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇。
对每个簇，计算所有点的均值作为新的聚类中心。
重复2，3直到聚类中心不再发生改变

Figure 1

K-means的应用
数据介绍：
现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的八大主要变量数据，这八大变量分别是：食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住以及杂项商品和服务。利用已有数据，对31个省份进行聚类。

实验目的：
通过聚类，了解1999年各个省份的消费水平在国内的情况。

技术路线：
sklearn.cluster.Kmeans

数据实例：

7. 怎么用python进行聚类分析

、K均值聚类K-Means算法思想简单，效果却很好，是最有名的聚类算法。聚类算法的步骤如下：1：初始化K个样本作为初始聚类中心；2：计算每个样本点到K个中心的距离，选择最近的中心作为其分类，直到所有样本点分类完毕；3：分别计算K个类中所有样本的质心，作为新的中心点，完成一轮迭代。通常的迭代结束条件为新的质心与之前的质心偏移值小于一

8. 怎么用python抓取豆瓣上用户对电影的评分

#!/usr/bin/env python2.7# encoding=utf-8"""
爬取豆瓣电影TOP250 - 完整示例代码
"""import codecsimport requestsfrom bs4 import BeautifulSoup

DOWNLOAD_URL = 'http://movie.douban.com/top250/'def download_page(url):
return requests.get(url, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}).contentdef parse_html(html):
soup = BeautifulSoup(html)
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})

movie_name_list = [] for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs={'class': 'hd'})
movie_name = detail.find('span', attrs={'class': 'title'}).getText()

movie_name_list.append(movie_name)

next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return movie_name_list, DOWNLOAD_URL + next_page['href'] return movie_name_list, Nonedef main():
url = DOWNLOAD_URL with codecs.open('movies', 'wb', encoding='utf-8') as fp: while url:
html = download_page(url)
movies, url = parse_html(html)
fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if __name__ == '__main__':
main()

9. 如何用Python进行大数据挖掘和分析

如何用Python进行大数据挖掘和分析？快速入门路径图
大数据无处不在。在时下这个年代，不管你喜欢与否，在运营一个成功的商业的过程中都有可能会遇到它。
什么是大数据？
大数据就像它看起来那样——有大量的数据。单独而言，你能从单一的数据获取的洞见穷其有限。但是结合复杂数学模型以及强大计算能力的TB级数据，却能创造出人类无法制造的洞见。大数据分析提供给商业的价值是无形的，并且每天都在超越人类的能力。
大数据分析的第一步就是要收集数据本身，也就是众所周知的“数据挖掘”。大部分的企业处理着GB级的数据，这些数据有用户数据、产品数据和地理位置数据。今天，我将会带着大家一起探索如何用 Python 进行大数据挖掘和分析？
为什么选择Python?
Python最大的优点就是简单易用。这个语言有着直观的语法并且还是个强大的多用途语言。这一点在大数据分析环境中很重要，并且许多企业内部已经在使用Python了，比如Google，YouTube，迪士尼等。还有，Python是开源的，并且有很多用于数据科学的类库。
现在，如果你真的要用Python进行大数据分析的话，毫无疑问你需要了解Python的语法，理解正则表达式，知道什么是元组、字符串、字典、字典推导式、列表和列表推导式——这只是开始。
数据分析流程
一般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施一个数据分析项目。按照这个流程，每个部分需要掌握的细分知识点如下：
数据获取：公开数据、Python爬虫
外部数据的获取方式主要有以下两种。
第一种是获取外部的公开数据集，一些科研机构、企业、政府会开放一些数据，你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。
另一种获取外部数据的方式就是爬虫。
比如你可以通过爬虫获取招聘网站某一职位的招聘信息，爬取租房网站上某城市的租房信息，爬取豆瓣评分评分最高的电影列表，获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据，你可以对某个行业、某种人群进行分析。
在爬虫之前你需要先了解一些 Python 的基础知识：元素（列表、字典、元组等）、变量、循环、函数………
以及，如何用 Python 库（urllib、BeautifulSoup、requests、scrapy）实现网页爬虫。
掌握基础的爬虫之后，你还需要一些高级技巧，比如正则表达式、使用cookie信息、模拟用户登录、抓包分析、搭建代理池等等，来应对不同网站的反爬虫限制。
数据存取：SQL语言
在应对万以内的数据的时候，Excel对于一般的分析没有问题，一旦数据量大，就会力不从心，数据库就能够很好地解决这个问题。而且大多数的企业，都会以SQL的形式来存储数据。
SQL作为最经典的数据库工具，为海量数据的存储与管理提供可能，并且使数据的提取的效率大大提升。你需要掌握以下技能：
提取特定情况下的数据
数据库的增、删、查、改
数据的分组聚合、如何建立多个表之间的联系
数据预处理：Python（pandas）
很多时候我们拿到的数据是不干净的，数据的重复、缺失、异常值等等，这时候就需要进行数据的清洗，把这些影响分析的数据处理好，才能获得更加精确地分析结果。
对于数据预处理，学会 pandas （Python包）的用法，应对一般的数据清洗就完全没问题了。需要掌握的知识点如下：
选择：数据访问
缺失值处理：对缺失数据行进行删除或填充
重复值处理：重复值的判断与删除
异常值处理：清除不必要的空格和极端、异常数据
相关操作：描述性统计、Apply、直方图等
合并：符合各种逻辑关系的合并操作
分组：数据划分、分别执行函数、数据重组
Reshaping：快速生成数据透视表
概率论及统计学知识
需要掌握的知识点如下：
基本统计量：均值、中位数、众数、百分位数、极值等
其他描述性统计量：偏度、方差、标准差、显着性等
其他统计知识：总体和样本、参数和统计量、ErrorBar
概率分布与假设检验：各种分布、假设检验流程
其他概率论知识：条件概率、贝叶斯等
有了统计学的基本知识，你就可以用这些统计量做基本的分析了。你可以使用 Seaborn、matplotlib 等（python包）做一些可视化的分析，通过各种可视化统计图，并得出具有指导意义的结果。
Python 数据分析
掌握回归分析的方法，通过线性回归和逻辑回归，其实你就可以对大多数的数据进行回归分析，并得出相对精确地结论。这部分需要掌握的知识点如下：
回归分析：线性回归、逻辑回归
基本的分类算法：决策树、随机森林……
基本的聚类算法：k-means……
特征工程基础：如何用特征选择优化模型
调参方法：如何调节参数优化模型
Python 数据分析包：scipy、numpy、scikit-learn等
在数据分析的这个阶段，重点了解回归分析的方法，大多数的问题可以得以解决，利用描述性的统计分析和回归分析，你完全可以得到一个不错的分析结论。
当然，随着你实践量的增多，可能会遇到一些复杂的问题，你就可能需要去了解一些更高级的算法：分类、聚类。
然后你会知道面对不同类型的问题的时候更适合用哪种算法模型，对于模型的优化，你需要去了解如何通过特征提取、参数调节来提升预测的精度。
你可以通过 Python 中的 scikit-learn 库来实现数据分析、数据挖掘建模和分析的全过程。
总结
其实做数据挖掘不是梦，5步就能让你成为一个Python爬虫高手!

10. python这样的数据集,第一列是用户,第二列是电影,第三列是评分,第四是时间之类的.

# 读文件
f=open('e:/python27/view_c.txt','r')
lines=f.readlines()
f.close()
# 按行写入列表list1
# 并统计总行数、人数、影片数
list1=[]
num=0
maxrow=0
maxcol=0
for line in lines:
list1.append([])
for st in line.split('\t'):
list1[num].append(int(st))
if list1[num][0]>maxrow:
maxrow=list1[num][0]
if list1[num][1]>maxcol:
maxcol=list1[num][1]
num+=1
# 按人数、影片数创建全为0值的二维数组list2
list2=[]
for i in range(0,maxrow):
list2.append([])
for j in range(0,maxcol):
list2[i].append(0)
# 填充二维数组list2
for i in range(0,num):
id=list1[i][0]-1
jd=list1[i][1]-1
kd=list1[i][2]
list2[id][jd]=kd
# 二维数组list2
for i in range(0,maxrow):
for j in range(0,maxcol):
print(list2[i][j],' ',end='')
print('\n')

导航:首页 > 编程语言 > python对电影评分进行聚类

python对电影评分进行聚类

与python对电影评分进行聚类相关的资料