『壹』 中文短句相似度匹配方法
一、原始落後的VSM
網上搜索關鍵詞「短文本 相似度」,出來的結果基本上都是以BOW(Bag of words)的VSM方案,大致流程如下:
分詞 —> 提取關鍵詞 —> 計算tf或if-idf,以向量的形式替換原文本 —> 文本相似度的問題轉變為計算向量相似度
一開始這樣的一個思路,很清晰明了,而且網上相應的資料也很多,然後就開搞吧。
1、把所有短文本去掉標點符號,用jieba分詞分好詞,去除停用詞,得到分好的文本;
2、按一定規則抽取特徵詞彙,作為後期向量的每一維;
3、用sklearn庫中的原生方法CountVectorizer、TfidfVectorizer等得到矩陣;
4、每個短文本計算對應得到的向量,採用K-Means聚類的方法進行非監督學習。
文本分類的大致思路基本上就如上所述,具體的細節調整就視實際情況而定。然而,想法是美好的,現實是殘酷的,全部分好詞的文本,抽取的特徵詞較多,即向量的維度較大,且向量是稀疏的,在使用K-Means時,會出現有個別cluster下的文本數量特別大;
如果是用戶輸入關鍵詞,計算關鍵詞的詞頻。這個好做,如果是要程序自己分析詞來做詞頻統計,這個非常難。
『叄』 包含多個文件夾的Python項目打包為可執行文件exe
文件構成
使用pyinstaller打包的時候,僅打包.py文件,其餘依賴項只需在打包完成後,拷入打包生成的根目錄即可。
多文件打包
命令格式如下,下命令為一條命令,為方便顯示做了分行處理:
pyinstaller [主文件] -p [其他文件1] -p [其他文件2]--hidden-import [自建模塊1]--hidden-import [自建模塊2]# 以上為一整條命令
以上文圖中結構為例,在根目錄打開命令窗口,輸入命令:
pyinstaller main.py -p mysql.py -p other.py --hidden-import mysql --hidden-import other
在目錄結構:「程序根目錄distmain」 下可以找到生成的main.exe。將其他依賴文件拷貝進入「程序根目錄distmain」 下,即可運行。
『肆』 python sklearn里有kmeans演算法嗎
K-Means是常用的聚類演算法,與其他聚類演算法相比,其時間復雜度低,聚類的效果也還不錯,這里簡單介紹一下k-means演算法,下圖是一個手寫體數據集聚類的結果。
基本思想
k-means演算法需要事先指定簇的個數k,演算法開始隨機選擇k個記錄點作為中心點,然後遍歷整個數據集的各條記錄,將每條記錄歸到離它最近的中心點所在的簇中,之後以各個簇的記錄的均值中心點取代之前的中心點,然後不斷迭代,直到收斂,演算法描述如下:
上面說的收斂,可以看出兩方面,一是每條記錄所歸屬的簇不再變化,二是優化目標變化不大。演算法的時間復雜度是O(K*N*T),k是中心點個數,N數據集的大小,T是迭代次數。
優化目標
k-means的損失函數是平方誤差:
RSSk=∑x∈ωk|x?u(ωk)|2
RSS=∑k=1KRSSk
其中$\omega _k$表示第k個簇,$u(\omega _k)$表示第k個簇的中心點,$RSS_k$是第k個簇的損失函數,$RSS$表示整體的損失函數。優化目標就是選擇恰當的記錄歸屬方案,使得整體的損失函數最小。
中心點的選擇
k-meams演算法的能夠保證收斂,但不能保證收斂於全局最優點,當初始中心點選取不好時,只能達到局部最優點,整個聚類的效果也會比較差。可以採用以下方法:k-means中心點
1、選擇彼此距離盡可能遠的那些點作為中心點;
2、先採用層次進行初步聚類輸出k個簇,以簇的中心點的作為k-means的中心點的輸入。
3、多次隨機選擇中心點訓練k-means,選擇效果最好的聚類結果
k值的選取
k-means的誤差函數有一個很大缺陷,就是隨著簇的個數增加,誤差函數趨近於0,最極端的情況是每個記錄各為一個單獨的簇,此時數據記錄的誤差為0,但是這樣聚類結果並不是我們想要的,可以引入結構風險對模型的復雜度進行懲罰:
K=mink[RSSmin(k)+λk]
$\lambda$是平衡訓練誤差與簇的個數的參數,但是現在的問題又變成了如何選取$\lambda$了,有研究[參考文獻1]指出,在數據集滿足高斯分布時,$\lambda=2m$,其中m是向量的維度。
另一種方法是按遞增的順序嘗試不同的k值,同時畫出其對應的誤差值,通過尋求拐點來找到一個較好的k值,詳情見下面的文本聚類的例子。
k-means文本聚類
我爬取了36KR的部分文章,共1456篇,分詞後使用sklearn進行k-means聚類。分詞後數據記錄如下:
使用TF-IDF進行特徵詞的選取,下圖是中心點的個數從3到80對應的誤差值的曲線:
從上圖中在k=10處出現一個較明顯的拐點,因此選擇k=10作為中心點的個數,下面是10個簇的數據集的個數。
{0: 152, 1: 239, 2: 142, 3: 61, 4: 119, 5: 44, 6: 71, 7: 394, 8: 141, 9: 93}
簇標簽生成
聚類完成後,我們需要一些標簽來描述簇,聚類完後,相當於每個類都用一個類標,這時候可以用TFIDF、互信息、卡方等方法來選取特徵詞作為標簽。關於卡方和互信息特徵提取可以看我之前的文章文本特徵選擇,下面是10個類的tfidf標簽結果。
Cluster 0: 商家 商品 物流 品牌 支付 導購 網站 購物 平台 訂單
Cluster 1: 投資 融資 美元 公司 資本 市場 獲得 國內 中國 去年
Cluster 2: 手機 智能 硬體 設備 電視 運動 數據 功能 健康 使用
Cluster 3: 數據 平台 市場 學生 app 移動 信息 公司 醫生 教育
Cluster 4: 企業 招聘 人才 平台 公司 it 移動 網站 安全 信息
Cluster 5: 社交 好友 交友 寵物 功能 活動 朋友 基於 分享 游戲
Cluster 6: 記賬 理財 貸款 銀行 金融 p2p 投資 互聯網 基金 公司
Cluster 7: 任務 協作 企業 銷售 溝通 工作 項目 管理 工具 成員
Cluster 8: 旅行 旅遊 酒店 預訂 信息 城市 投資 開放 app 需求
Cluster 9: 視頻 內容 游戲 音樂 圖片 照片 廣告 閱讀 分享 功能
實現代碼
#!--encoding=utf-8
from __future__ import print_function
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import HashingVectorizer
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, MiniBatchKMeans
def loadDataset():
'''導入文本數據集'''
f = open('36krout.txt','r')
dataset = []
lastPage = None
for line in f.readlines():
if '< title >' in line and '< / title >' in line:
if lastPage:
dataset.append(lastPage)
lastPage = line
else:
lastPage += line
if lastPage:
dataset.append(lastPage)
f.close()
return dataset
def transform(dataset,n_features=1000):
vectorizer = TfidfVectorizer(max_df=0.5, max_features=n_features, min_df=2,use_idf=True)
X = vectorizer.fit_transform(dataset)
return X,vectorizer
def train(X,vectorizer,true_k=10,minibatch = False,showLable = False):
#使用采樣數據還是原始數據訓練k-means,
if minibatch:
km = MiniBatchKMeans(n_clusters=true_k, init='k-means++', n_init=1,
init_size=1000, batch_size=1000, verbose=False)
else:
km = KMeans(n_clusters=true_k, init='k-means++', max_iter=300, n_init=1,
verbose=False)
km.fit(X)
if showLable:
print("Top terms per cluster:")
order_centroids = km.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
print (vectorizer.get_stop_words())
for i in range(true_k):
print("Cluster %d:" % i, end='')
for ind in order_centroids[i, :10]:
print(' %s' % terms[ind], end='')
print()
result = list(km.predict(X))
print ('Cluster distribution:')
print (dict([(i, result.count(i)) for i in result]))
return -km.score(X)
def test():
'''測試選擇最優參數'''
dataset = loadDataset()
print("%d documents" % len(dataset))
X,vectorizer = transform(dataset,n_features=500)
true_ks = []
scores = []
for i in xrange(3,80,1):
score = train(X,vectorizer,true_k=i)/len(dataset)
print (i,score)
true_ks.append(i)
scores.append(score)
plt.figure(figsize=(8,4))
plt.plot(true_ks,scores,label="error",color="red",linewidth=1)
plt.xlabel("n_features")
plt.ylabel("error")
plt.legend()
plt.show()
def out():
'''在最優參數下輸出聚類結果'''
dataset = loadDataset()
X,vectorizer = transform(dataset,n_features=500)
score = train(X,vectorizer,true_k=10,showLable=True)/len(dataset)
print (score)
#test()
out()
『伍』 文本特徵提取
在對文本數據進行處理時,很大一部分精力都用在數據集的特徵提取上,因此記錄一下常用的文本特徵提取方法。
文本特徵提取一般分為兩部分
(1)文本本身屬性:母音字數數、輔音字母數、···
(2)基於文本的特徵提取:TF-IDF等
比如提取以上文檔的特徵,基於文本本身可以提取特徵:
(1)字數:統計每一行text文本的詞彙數量(有多少個單詞)
(2)非重復單詞數量:統計每一行text文本中只出現一次的單詞個數
(3)長度:每一行text的長度,佔了多少存儲空間(包含空格、符號、字母等的長度)
(4)停止詞數量統計:between、but、about、very等詞彙的數量統計
(5)標點符號數量:每一行text中包含的標點符號數量
(6)大寫單詞數量:統計大寫單詞數量
(7)標題式單詞數量:統計單詞拼寫首字母是否為大寫,且其他字母為小寫的單詞數量
(8)單詞的平均長度:每一行text中每個單詞長度的平均值
這些特徵的提取不涉及復雜的函數計算,基於文本本身屬性提取直觀信息作為模型訓練的特徵。
·
TF-IDF演算法 :計算單詞權重最為有效的實現方法就是TF-IDF, 它是由Salton在1988 年提出的,以特徵詞在文檔d中出現的次數與包含該特徵詞的文檔數之比作為該詞的權重。
python中使用TfidfVectorizer函數實現TF-IDF特徵的提取,生成每個text的TF-IDF特徵。
·
經過TF-IDF特徵提取後,數據集的特徵變數超級多(TF-IDF計算了整個數據集出現的所有單詞對每個test的權重),面對這樣龐大的特徵數據,可以通過SVD實現對數據集的壓縮。
SVD的原理是將龐大的TF-IDF生成的數據集A進行拆分,設置K值(想要壓縮得到的維度,例如K=20,壓縮後得到20列的特徵數據集)X就是只有K個特徵轉換後的數據集。
經過壓縮後的TF-IDF只有K列,與01中 基於文本本身特徵 合並,即為文本數據集的特徵向量。