python對電影評分進行聚類_怎麼用python進行聚類分析

1. python聚類如何解釋

代碼如下：# -*- coding: utf-8 -*-from sklearn.cluster import KMeansfrom sklearn.externals import joblibimport numpy final = open('c:/test/final.dat' , 'r') data = [line.strip().split('\t') for line in final]feature = [[float(x) for x in row[3:]] for row in data] #調用kmeans類clf = KMeans(n_clusters=9)s = clf.fit(feature)print s #9個中心print clf.cluster_centers_ #每個樣本所屬的簇print clf.labels_ #用來評估簇的個數是否合適，距離越小說明簇分的越好，選取臨界點的簇個數print clf.inertia_ #進行預測print clf.predict(feature) #保存模型joblib.mp(clf , 'c:/km.pkl') #載入保存的模型clf = joblib.load('c:/km.pkl') '''#用來評估簇的個數是否合適，距離越小說明簇分的越好，選取臨界點的簇個數for i in range(5,30,1): clf = KMeans(n_clusters=i) s = clf.fit(feature) print i , clf.inertia_

2. python怎麼用sklearn包進行聚類

#-*-coding:utf-8-*-
fromsklearn.clusterimportKMeans
fromsklearn.externalsimportjoblib
importnumpy

final=open('c:/test/final.dat','r')

data=[line.strip().split('	')forlineinfinal]
feature=[[float(x)forxinrow[3:]]forrowindata]

#調用kmeans類
clf=KMeans(n_clusters=9)
s=clf.fit(feature)
prints

#9個中心
printclf.cluster_centers_

#每個樣本所屬的簇
printclf.labels_

#用來評估簇的個數是否合適，距離越小說明簇分的越好，選取臨界點的簇個數
printclf.inertia_

#進行預測
printclf.predict(feature)

#保存模型
joblib.mp(clf,'c:/km.pkl')

#載入保存的模型
clf=joblib.load('c:/km.pkl')

'''
#用來評估簇的個數是否合適，距離越小說明簇分的越好，選取臨界點的簇個數
foriinrange(5,30,1):
clf=KMeans(n_clusters=i)
s=clf.fit(feature)
printi,clf.inertia_
'''

3. python對數據進行聚類怎麼顯示數據分類

將其整理成數據集為：
[ [1,0,"yes"],[1,1,"yes"],[0,1,"yes"],[0,0,"no"],[1,0,"no"] ]
演算法過程：

1、計算原始的信息熵。
2、依次計算數據集中每個樣本的每個特徵的信息熵。
3、比較不同特徵信息熵的大小，選出信息熵最大的特徵值並輸出。
運行結果：
col : 0 curInfoGain : 2.37744375108 baseInfoGain : 0.0
col : 1 curInfoGain : 1.37744375108 baseInfoGain : 2.37744375108
bestInfoGain : 2.37744375108 bestFeature: 0
結果分析：
說明按照第一列，即有無喉結這個特徵來進行分類的效果更好。
思考：
1、能否利用決策樹演算法，將樣本最終的分類結果進行輸出？如樣本1,2,3屬於男性，4屬於女性。

2、示常式序生成的決策樹只有一層，當特徵量增多的時候，如何生成具有多層結構的決策樹？
3、如何評判分類結果的好壞？
在下一篇文章中，我將主要對以上三個問題進行分析和解答。如果您也感興趣，歡迎您訂閱我的文章，也可以在下方進行評論，如果有疑問或認為不對的地方，您也可以留言，我將積極與您進行解答。
完整代碼如下：
from math import log
"""
計算信息熵
"""
def calcEntropy(dataset):
diclabel = {} ## 標簽字典，用於記錄每個分類標簽出現的次數
for record in dataset:
label = record[-1]
if label not in diclabel.keys():
diclabel[label] = 0
diclabel[label] += 1
### 計算熵
entropy = 0.0
cnt = len(dataset)
for label in diclabel.keys():
prob = float(1.0 * diclabel[label]/cnt)
entropy -= prob * log(prob,2)
return entropy
def initDataSet():
dataset = [[1,0,"yes"],[1,1,"yes"],[0,1,"yes"],[0,0,"no"],[1,0,"no"]]
label = ["male","female"]
return dataset,label
#### 拆分dataset ,根據指定的過濾選項值，去掉指定的列形成一個新的數據集
def splitDataset(dataset , col, value):
retset = [] ## 拆分後的數據集
for record in dataset:
if record[col] == value :
recedFeatVec = record[:col]
recedFeatVec.extend(record[col+1:]) ### 將指定的列剔除
retset.append(recedFeatVec) ### 將新形成的特徵值列表追加到返回的列表中
return retset
### 找出信息熵增益最大的特徵值
### 參數：
### dataset : 原始的數據集
def findBestFeature(dataset):
numFeatures = len(dataset[0]) - 1 ### 特徵值的個數
baseEntropy = calcEntropy(dataset) ### 計算原始數據集的熵
baseInfoGain = 0.0 ### 初始信息增益
bestFeature = -1 ### 初始的最優分類特徵值索引
### 計算每個特徵值的熵
for col in range(numFeatures):
features = [record[col] for record in dataset] ### 提取每一列的特徵向量如此處col= 0 ，則features = [1,1,0,0]
uniqueFeat = set(features)
curInfoGain = 0 ### 根據每一列進行拆分，所獲得的信息增益
for featVal in uniqueFeat:
subDataset = splitDataset(dataset,col,featVal) ### 根據col列的featVal特徵值來對數據集進行劃分
prob = 1.0 * len(subDataset)/numFeatures ### 計運算元特徵數據集所佔比例
curInfoGain += prob * calcEntropy(subDataset) ### 計算col列的特徵值featVal所產生的信息增益
# print "col : " ,col , " featVal : " , featVal , " curInfoGain :" ,curInfoGain ," baseInfoGain : " ,baseInfoGain
print "col : " ,col , " curInfoGain :" ,curInfoGain ," baseInfoGain : " ,baseInfoGain
if curInfoGain > baseInfoGain:
baseInfoGain = curInfoGain
bestFeature = col
return baseInfoGain,bestFeature ### 輸出最大的信息增益，以獲得該增益的列
dataset,label = initDataSet()
infogain , bestFeature = findBestFeature(dataset)
print "bestInfoGain :" , infogain, " bestFeature:",bestFeature

4. python scipy怎麼做層次聚類

Python機器學習包裡面的cluster提供了很多聚類演算法，其中ward_tree實現了凝聚層次聚類演算法。但是沒有看明白ward_tree的返回值代表了什麼含義，遂決定尋找別的實現方式。經過查找，發現scipy.cluster.hierarchy.fclusterdata能夠實現層次聚類。

5. 如何用python對文本進行聚類

實現原理：
首先從Tourist_spots_5A_BD.txt中讀取景點信息，然後通過調用無界面瀏覽器PhantomJS（Firefox可替代）訪問網路鏈接"http://ke..com/"，通過Selenium獲取輸入對話框ID，輸入關鍵詞如"故宮"，再訪問該網路頁面。最後通過分析DOM樹結構獲取摘要的ID並獲取其值。核心代碼如下：
driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

PS：Selenium更多應用於自動化測試，推薦Python爬蟲使用scrapy等開源工具。
# coding=utf-8
"""
Created on 2015-09-04 @author: Eastmount
"""

import time
import re
import os
import sys
import codecs
import shutil
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")
#driver = webdriver.Firefox()
wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots
def getInfobox(entityName, fileName):
try:
#create paths and txt files
print u'文件名稱: ', fileName
info = codecs.open(fileName, 'w', 'utf-8')

#locate input notice: 1.visit url by unicode 2.write files
#Error: Message: Element not found in the cache -
# Perhaps the page has changed since it was looked up
#解決方法: 使用Selenium和Phantomjs
print u'實體名稱: ', entityName.rstrip('\n')
driver.get("http://ke..com/")
elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")
elem_inp.send_keys(entityName)
elem_inp.send_keys(Keys.RETURN)
info.write(entityName.rstrip('\n')+'\r\n') #codecs不支持'\n'換行
time.sleep(2)

#load content 摘要
elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")
for value in elem_value:
print value.text
info.writelines(value.text + '\r\n')
time.sleep(2)

except Exception,e: #'utf8' codec can't decode byte
print "Error: ",e
finally:
print '\n'
info.close()

#Main function
def main():
#By function get information
path = "BaiSpider\\"
if os.path.isdir(path):
shutil.rmtree(path, True)
os.makedirs(path)
source = open("Tourist_spots_5A_BD.txt", 'r')
num = 1
for entityName in source:
entityName = unicode(entityName, "utf-8")
if u'故宮' in entityName: #else add a '?'
entityName = u'北京故宮'
name = "%04d" % num
fileName = path + str(name) + ".txt"
getInfobox(entityName, fileName)
num = num + 1
print 'End Read Files!'
source.close()
driver.close()

if __name__ == '__main__':
main()

6. python代碼如何應用系統聚類和K-means聚類法進行聚類分析然後選擇變數，建立適當的模型

-Means聚類演算法
k-means演算法以k為參數，把n個對象分成k個簇，使簇內具有較高的相似度，而簇間的相似度較低。

隨機選擇k個點作為初始的聚類中心。
對於剩下的點，根據其與聚類中心的距離，將其歸入最近的簇。
對每個簇，計算所有點的均值作為新的聚類中心。
重復2，3直到聚類中心不再發生改變

Figure 1

K-means的應用
數據介紹：
現有1999年全國31個省份城鎮居民家庭平均每人全年消費性支出的八大主要變數數據，這八大變數分別是：食品、衣著、家庭設備用品及服務、醫療保健、交通和通訊、娛樂教育文化服務、居住以及雜項商品和服務。利用已有數據，對31個省份進行聚類。

實驗目的：
通過聚類，了解1999年各個省份的消費水平在國內的情況。

技術路線：
sklearn.cluster.Kmeans

數據實例：

7. 怎麼用python進行聚類分析

、K均值聚類K-Means演算法思想簡單，效果卻很好，是最有名的聚類演算法。聚類演算法的步驟如下：1：初始化K個樣本作為初始聚類中心；2：計算每個樣本點到K個中心的距離，選擇最近的中心作為其分類，直到所有樣本點分類完畢；3：分別計算K個類中所有樣本的質心，作為新的中心點，完成一輪迭代。通常的迭代結束條件為新的質心與之前的質心偏移值小於一

8. 怎麼用python抓取豆瓣上用戶對電影的評分

#!/usr/bin/env python2.7# encoding=utf-8"""
爬取豆瓣電影TOP250 - 完整示例代碼
"""import codecsimport requestsfrom bs4 import BeautifulSoup

DOWNLOAD_URL = 'http://movie.douban.com/top250/'def download_page(url):
return requests.get(url, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}).contentdef parse_html(html):
soup = BeautifulSoup(html)
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})

movie_name_list = [] for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs={'class': 'hd'})
movie_name = detail.find('span', attrs={'class': 'title'}).getText()

movie_name_list.append(movie_name)

next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return movie_name_list, DOWNLOAD_URL + next_page['href'] return movie_name_list, Nonedef main():
url = DOWNLOAD_URL with codecs.open('movies', 'wb', encoding='utf-8') as fp: while url:
html = download_page(url)
movies, url = parse_html(html)
fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if __name__ == '__main__':
main()

9. 如何用Python進行大數據挖掘和分析

如何用Python進行大數據挖掘和分析？快速入門路徑圖
大數據無處不在。在時下這個年代，不管你喜歡與否，在運營一個成功的商業的過程中都有可能會遇到它。
什麼是大數據？
大數據就像它看起來那樣——有大量的數據。單獨而言，你能從單一的數據獲取的洞見窮其有限。但是結合復雜數學模型以及強大計算能力的TB級數據，卻能創造出人類無法製造的洞見。大數據分析提供給商業的價值是無形的，並且每天都在超越人類的能力。
大數據分析的第一步就是要收集數據本身，也就是眾所周知的「數據挖掘」。大部分的企業處理著GB級的數據，這些數據有用戶數據、產品數據和地理位置數據。今天，我將會帶著大家一起探索如何用 Python 進行大數據挖掘和分析？
為什麼選擇Python?
Python最大的優點就是簡單易用。這個語言有著直觀的語法並且還是個強大的多用途語言。這一點在大數據分析環境中很重要，並且許多企業內部已經在使用Python了，比如Google，YouTube，迪士尼等。還有，Python是開源的，並且有很多用於數據科學的類庫。
現在，如果你真的要用Python進行大數據分析的話，毫無疑問你需要了解Python的語法，理解正則表達式，知道什麼是元組、字元串、字典、字典推導式、列表和列表推導式——這只是開始。
數據分析流程
一般可以按「數據獲取-數據存儲與提取-數據預處理-數據建模與分析-數據可視化」這樣的步驟來實施一個數據分析項目。按照這個流程，每個部分需要掌握的細分知識點如下：
數據獲取：公開數據、Python爬蟲
外部數據的獲取方式主要有以下兩種。
第一種是獲取外部的公開數據集，一些科研機構、企業、政府會開放一些數據，你需要到特定的網站去下載這些數據。這些數據集通常比較完善、質量相對較高。
另一種獲取外部數據的方式就是爬蟲。
比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息，爬取租房網站上某城市的租房信息，爬取豆瓣評分評分最高的電影列表，獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據，你可以對某個行業、某種人群進行分析。
在爬蟲之前你需要先了解一些 Python 的基礎知識：元素（列表、字典、元組等）、變數、循環、函數………
以及，如何用 Python 庫（urllib、BeautifulSoup、requests、scrapy）實現網頁爬蟲。
掌握基礎的爬蟲之後，你還需要一些高級技巧，比如正則表達式、使用cookie信息、模擬用戶登錄、抓包分析、搭建代理池等等，來應對不同網站的反爬蟲限制。
數據存取：SQL語言
在應對萬以內的數據的時候，Excel對於一般的分析沒有問題，一旦數據量大，就會力不從心，資料庫就能夠很好地解決這個問題。而且大多數的企業，都會以SQL的形式來存儲數據。
SQL作為最經典的資料庫工具，為海量數據的存儲與管理提供可能，並且使數據的提取的效率大大提升。你需要掌握以下技能：
提取特定情況下的數據
資料庫的增、刪、查、改
數據的分組聚合、如何建立多個表之間的聯系
數據預處理：Python（pandas）
很多時候我們拿到的數據是不幹凈的，數據的重復、缺失、異常值等等，這時候就需要進行數據的清洗，把這些影響分析的數據處理好，才能獲得更加精確地分析結果。
對於數據預處理，學會 pandas （Python包）的用法，應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下：
選擇：數據訪問
缺失值處理：對缺失數據行進行刪除或填充
重復值處理：重復值的判斷與刪除
異常值處理：清除不必要的空格和極端、異常數據
相關操作：描述性統計、Apply、直方圖等
合並：符合各種邏輯關系的合並操作
分組：數據劃分、分別執行函數、數據重組
Reshaping：快速生成數據透視表
概率論及統計學知識
需要掌握的知識點如下：
基本統計量：均值、中位數、眾數、百分位數、極值等
其他描述性統計量：偏度、方差、標准差、顯著性等
其他統計知識：總體和樣本、參數和統計量、ErrorBar
概率分布與假設檢驗：各種分布、假設檢驗流程
其他概率論知識：條件概率、貝葉斯等
有了統計學的基本知識，你就可以用這些統計量做基本的分析了。你可以使用 Seaborn、matplotlib 等（python包）做一些可視化的分析，通過各種可視化統計圖，並得出具有指導意義的結果。
Python 數據分析
掌握回歸分析的方法，通過線性回歸和邏輯回歸，其實你就可以對大多數的數據進行回歸分析，並得出相對精確地結論。這部分需要掌握的知識點如下：
回歸分析：線性回歸、邏輯回歸
基本的分類演算法：決策樹、隨機森林……
基本的聚類演算法：k-means……
特徵工程基礎：如何用特徵選擇優化模型
調參方法：如何調節參數優化模型
Python 數據分析包：scipy、numpy、scikit-learn等
在數據分析的這個階段，重點了解回歸分析的方法，大多數的問題可以得以解決，利用描述性的統計分析和回歸分析，你完全可以得到一個不錯的分析結論。
當然，隨著你實踐量的增多，可能會遇到一些復雜的問題，你就可能需要去了解一些更高級的演算法：分類、聚類。
然後你會知道面對不同類型的問題的時候更適合用哪種演算法模型，對於模型的優化，你需要去了解如何通過特徵提取、參數調節來提升預測的精度。
你可以通過 Python 中的 scikit-learn 庫來實現數據分析、數據挖掘建模和分析的全過程。
總結
其實做數據挖掘不是夢，5步就能讓你成為一個Python爬蟲高手!

10. python這樣的數據集,第一列是用戶,第二列是電影,第三列是評分,第四是時間之類的.

# 讀文件
f=open('e:/python27/view_c.txt','r')
lines=f.readlines()
f.close()
# 按行寫入列表list1
# 並統計總行數、人數、影片數
list1=[]
num=0
maxrow=0
maxcol=0
for line in lines:
list1.append([])
for st in line.split('\t'):
list1[num].append(int(st))
if list1[num][0]>maxrow:
maxrow=list1[num][0]
if list1[num][1]>maxcol:
maxcol=list1[num][1]
num+=1
# 按人數、影片數創建全為0值的二維數組list2
list2=[]
for i in range(0,maxrow):
list2.append([])
for j in range(0,maxcol):
list2[i].append(0)
# 填充二維數組list2
for i in range(0,num):
id=list1[i][0]-1
jd=list1[i][1]-1
kd=list1[i][2]
list2[id][jd]=kd
# 二維數組list2
for i in range(0,maxrow):
for j in range(0,maxcol):
print(list2[i][j],' ',end='')
print('\n')

導航:首頁 > 編程語言 > python對電影評分進行聚類

python對電影評分進行聚類

與python對電影評分進行聚類相關的資料