pythonsklearn視頻_python sklearn 怎樣用

1. python sklearn 怎麼提高模型

python的機器學習模塊sklearn（Google公司開始投資，是大數據戰略的一個步驟）可以用於模式識別，用在一般知識發現，例如戶外參與人口的類型，sklearn包自己帶了兩個數據集，其中一個是鳶尾花資料庫（iris，鳶尾花）
from sklearn import datasets
iris = datasets.load_irises()
#把鳶尾花數據集載入
data = iris.data
#可以用dir(data)查看數據集的性質其中包括max最大，mean中值等等
data.shape

#返回值：（150，4）表示150個觀察值，4個特徵設定萼片和花瓣的長寬；
pylab.imshow(digits.images[-1], cmap = pylab.cm_gray_r)

2. python sklearn里有kmeans演算法嗎

K-Means是常用的聚類演算法，與其他聚類演算法相比，其時間復雜度低，聚類的效果也還不錯，這里簡單介紹一下k-means演算法，下圖是一個手寫體數據集聚類的結果。
基本思想
k-means演算法需要事先指定簇的個數k，演算法開始隨機選擇k個記錄點作為中心點，然後遍歷整個數據集的各條記錄，將每條記錄歸到離它最近的中心點所在的簇中，之後以各個簇的記錄的均值中心點取代之前的中心點，然後不斷迭代，直到收斂，演算法描述如下：
上面說的收斂，可以看出兩方面，一是每條記錄所歸屬的簇不再變化，二是優化目標變化不大。演算法的時間復雜度是O(K*N*T)，k是中心點個數，N數據集的大小，T是迭代次數。
優化目標
k-means的損失函數是平方誤差：
RSSk=∑x∈ωk|x?u(ωk)|2
RSS=∑k=1KRSSk
其中$\omega _k$表示第k個簇，$u(\omega _k)$表示第k個簇的中心點，$RSS_k$是第k個簇的損失函數，$RSS$表示整體的損失函數。優化目標就是選擇恰當的記錄歸屬方案，使得整體的損失函數最小。
中心點的選擇
k-meams演算法的能夠保證收斂，但不能保證收斂於全局最優點，當初始中心點選取不好時，只能達到局部最優點，整個聚類的效果也會比較差。可以採用以下方法：k-means中心點
1、選擇彼此距離盡可能遠的那些點作為中心點；
2、先採用層次進行初步聚類輸出k個簇，以簇的中心點的作為k-means的中心點的輸入。
3、多次隨機選擇中心點訓練k-means，選擇效果最好的聚類結果
k值的選取
k-means的誤差函數有一個很大缺陷，就是隨著簇的個數增加，誤差函數趨近於0，最極端的情況是每個記錄各為一個單獨的簇，此時數據記錄的誤差為0，但是這樣聚類結果並不是我們想要的，可以引入結構風險對模型的復雜度進行懲罰：
K=mink[RSSmin(k)+λk]
$\lambda$是平衡訓練誤差與簇的個數的參數，但是現在的問題又變成了如何選取$\lambda$了，有研究[參考文獻1]指出，在數據集滿足高斯分布時，$\lambda=2m$，其中m是向量的維度。
另一種方法是按遞增的順序嘗試不同的k值，同時畫出其對應的誤差值，通過尋求拐點來找到一個較好的k值，詳情見下面的文本聚類的例子。
k-means文本聚類
我爬取了36KR的部分文章，共1456篇，分詞後使用sklearn進行k-means聚類。分詞後數據記錄如下：
使用TF-IDF進行特徵詞的選取，下圖是中心點的個數從3到80對應的誤差值的曲線：
從上圖中在k=10處出現一個較明顯的拐點，因此選擇k=10作為中心點的個數，下面是10個簇的數據集的個數。
{0: 152, 1: 239, 2: 142, 3: 61, 4: 119, 5: 44, 6: 71, 7: 394, 8: 141, 9: 93}
簇標簽生成
聚類完成後，我們需要一些標簽來描述簇，聚類完後，相當於每個類都用一個類標，這時候可以用TFIDF、互信息、卡方等方法來選取特徵詞作為標簽。關於卡方和互信息特徵提取可以看我之前的文章文本特徵選擇，下面是10個類的tfidf標簽結果。
Cluster 0: 商家商品物流品牌支付導購網站購物平台訂單
Cluster 1: 投資融資美元公司資本市場獲得國內中國去年
Cluster 2: 手機智能硬體設備電視運動數據功能健康使用
Cluster 3: 數據平台市場學生 app 移動信息公司醫生教育
Cluster 4: 企業招聘人才平台公司 it 移動網站安全信息
Cluster 5: 社交好友交友寵物功能活動朋友基於分享游戲
Cluster 6: 記賬理財貸款銀行金融 p2p 投資互聯網基金公司
Cluster 7: 任務協作企業銷售溝通工作項目管理工具成員
Cluster 8: 旅行旅遊酒店預訂信息城市投資開放 app 需求
Cluster 9: 視頻內容游戲音樂圖片照片廣告閱讀分享功能
實現代碼
#!--encoding=utf-8
from __future__ import print_function
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import HashingVectorizer
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, MiniBatchKMeans
def loadDataset():
'''導入文本數據集'''
f = open('36krout.txt','r')
dataset = []
lastPage = None
for line in f.readlines():
if '< title >' in line and '< / title >' in line:
if lastPage:
dataset.append(lastPage)
lastPage = line
else:
lastPage += line
if lastPage:
dataset.append(lastPage)
f.close()
return dataset
def transform(dataset,n_features=1000):
vectorizer = TfidfVectorizer(max_df=0.5, max_features=n_features, min_df=2,use_idf=True)
X = vectorizer.fit_transform(dataset)
return X,vectorizer
def train(X,vectorizer,true_k=10,minibatch = False,showLable = False):
#使用采樣數據還是原始數據訓練k-means，
if minibatch:
km = MiniBatchKMeans(n_clusters=true_k, init='k-means++', n_init=1,
init_size=1000, batch_size=1000, verbose=False)
else:
km = KMeans(n_clusters=true_k, init='k-means++', max_iter=300, n_init=1,
verbose=False)
km.fit(X)
if showLable:
print("Top terms per cluster:")
order_centroids = km.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
print (vectorizer.get_stop_words())
for i in range(true_k):
print("Cluster %d:" % i, end='')
for ind in order_centroids[i, :10]:
print(' %s' % terms[ind], end='')
print()
result = list(km.predict(X))
print ('Cluster distribution:')
print (dict([(i, result.count(i)) for i in result]))
return -km.score(X)
def test():
'''測試選擇最優參數'''
dataset = loadDataset()
print("%d documents" % len(dataset))
X,vectorizer = transform(dataset,n_features=500)
true_ks = []
scores = []
for i in xrange(3,80,1):
score = train(X,vectorizer,true_k=i)/len(dataset)
print (i,score)
true_ks.append(i)
scores.append(score)
plt.figure(figsize=(8,4))
plt.plot(true_ks,scores,label="error",color="red",linewidth=1)
plt.xlabel("n_features")
plt.ylabel("error")
plt.legend()
plt.show()
def out():
'''在最優參數下輸出聚類結果'''
dataset = loadDataset()
X,vectorizer = transform(dataset,n_features=500)
score = train(X,vectorizer,true_k=10,showLable=True)/len(dataset)
print (score)
#test()
out()

3. python sklearn 如何用測試集數據畫出決策樹（非開發樣本）

#coding=utf-8

from sklearn.datasets import load_iris
from sklearn import tree

iris = load_iris()
clf = tree.DecisionTreeClassifier()
clf = clf.fit(iris.data, iris.target)

from sklearn.externals.six import StringIO
import pydot

dot_data = StringIO()
tree.export_graphviz(clf, out_file=dot_data)
graph = pydot.graph_from_dot_data(dot_data.getvalue())
graph[0].write_dot('iris_simple.dot')
graph[0].write_png('iris_simple.png')

4. 下一篇：如何入門python與機器學習

鏈接:

提取碼:uymm

Python 是一種面向對象的解釋型語言，面向對象是其非常重要的特性。《Python 3面向對象編程》通過Python 的數據結構、語法、設計模式，從簡單到復雜，從初級到高級，一步步通過例子來展示了Python 中面向對象的概念和原則。

5. python怎麼用sklearn包進行聚類

#-*-coding:utf-8-*-
fromsklearn.clusterimportKMeans
fromsklearn.externalsimportjoblib
importnumpy

final=open('c:/test/final.dat','r')

data=[line.strip().split('	')forlineinfinal]
feature=[[float(x)forxinrow[3:]]forrowindata]

#調用kmeans類
clf=KMeans(n_clusters=9)
s=clf.fit(feature)
prints

#9個中心
printclf.cluster_centers_

#每個樣本所屬的簇
printclf.labels_

#用來評估簇的個數是否合適，距離越小說明簇分的越好，選取臨界點的簇個數
printclf.inertia_

#進行預測
printclf.predict(feature)

#保存模型
joblib.mp(clf,'c:/km.pkl')

#載入保存的模型
clf=joblib.load('c:/km.pkl')

'''
#用來評估簇的個數是否合適，距離越小說明簇分的越好，選取臨界點的簇個數
foriinrange(5,30,1):
clf=KMeans(n_clusters=i)
s=clf.fit(feature)
printi,clf.inertia_
'''

6. python sklearn 怎樣用

SVM既可以用來分類，就是SVC；又可以用來預測，或者成為回歸，就是SVR。sklearn中的svm模塊中也集成了SVR類。
我們也使用一個小例子說明SVR怎麼用。
X = [[0, 0], [1, 1]] y = [0.5, 1.5] clf = svm.SVR() clf.fit(X, y) result = clf.predict([2, 2]) print result

導航:首頁 > 編程語言 > pythonsklearn視頻

pythonsklearn視頻

與pythonsklearn視頻相關的資料