pythonvectorizer_包含多個文件夾的Python項目打包為可執行文件exe

『壹』中文短句相似度匹配方法

一、原始落後的VSM
網上搜索關鍵詞「短文本相似度」，出來的結果基本上都是以BOW（Bag of words）的VSM方案，大致流程如下：

分詞 —> 提取關鍵詞 —> 計算tf或if-idf，以向量的形式替換原文本 —> 文本相似度的問題轉變為計算向量相似度
一開始這樣的一個思路，很清晰明了，而且網上相應的資料也很多，然後就開搞吧。

1、把所有短文本去掉標點符號，用jieba分詞分好詞，去除停用詞，得到分好的文本；

2、按一定規則抽取特徵詞彙，作為後期向量的每一維；

3、用sklearn庫中的原生方法CountVectorizer、TfidfVectorizer等得到矩陣；

4、每個短文本計算對應得到的向量，採用K-Means聚類的方法進行非監督學習。

文本分類的大致思路基本上就如上所述，具體的細節調整就視實際情況而定。然而，想法是美好的，現實是殘酷的，全部分好詞的文本，抽取的特徵詞較多，即向量的維度較大，且向量是稀疏的，在使用K-Means時，會出現有個別cluster下的文本數量特別大；

『貳』 python 編程實現csv文件某一列的詞頻統計

如果是用戶輸入關鍵詞，計算關鍵詞的詞頻。這個好做，如果是要程序自己分析詞來做詞頻統計，這個非常難。

『叄』包含多個文件夾的Python項目打包為可執行文件exe

文件構成

使用pyinstaller打包的時候，僅打包.py文件，其餘依賴項只需在打包完成後，拷入打包生成的根目錄即可。

多文件打包

命令格式如下，下命令為一條命令，為方便顯示做了分行處理：

pyinstaller [主文件] -p [其他文件1] -p [其他文件2]--hidden-import [自建模塊1]--hidden-import [自建模塊2]# 以上為一整條命令

以上文圖中結構為例，在根目錄打開命令窗口，輸入命令：

pyinstaller main.py -p mysql.py -p other.py --hidden-import mysql --hidden-import other

在目錄結構：「程序根目錄distmain」下可以找到生成的main.exe。將其他依賴文件拷貝進入「程序根目錄distmain」下，即可運行。

『肆』 python sklearn里有kmeans演算法嗎

K-Means是常用的聚類演算法，與其他聚類演算法相比，其時間復雜度低，聚類的效果也還不錯，這里簡單介紹一下k-means演算法，下圖是一個手寫體數據集聚類的結果。
基本思想
k-means演算法需要事先指定簇的個數k，演算法開始隨機選擇k個記錄點作為中心點，然後遍歷整個數據集的各條記錄，將每條記錄歸到離它最近的中心點所在的簇中，之後以各個簇的記錄的均值中心點取代之前的中心點，然後不斷迭代，直到收斂，演算法描述如下：
上面說的收斂，可以看出兩方面，一是每條記錄所歸屬的簇不再變化，二是優化目標變化不大。演算法的時間復雜度是O(K*N*T)，k是中心點個數，N數據集的大小，T是迭代次數。
優化目標
k-means的損失函數是平方誤差：
RSSk=∑x∈ωk|x?u(ωk)|2
RSS=∑k=1KRSSk
其中$\omega _k$表示第k個簇，$u(\omega _k)$表示第k個簇的中心點，$RSS_k$是第k個簇的損失函數，$RSS$表示整體的損失函數。優化目標就是選擇恰當的記錄歸屬方案，使得整體的損失函數最小。
中心點的選擇
k-meams演算法的能夠保證收斂，但不能保證收斂於全局最優點，當初始中心點選取不好時，只能達到局部最優點，整個聚類的效果也會比較差。可以採用以下方法：k-means中心點
1、選擇彼此距離盡可能遠的那些點作為中心點；
2、先採用層次進行初步聚類輸出k個簇，以簇的中心點的作為k-means的中心點的輸入。
3、多次隨機選擇中心點訓練k-means，選擇效果最好的聚類結果
k值的選取
k-means的誤差函數有一個很大缺陷，就是隨著簇的個數增加，誤差函數趨近於0，最極端的情況是每個記錄各為一個單獨的簇，此時數據記錄的誤差為0，但是這樣聚類結果並不是我們想要的，可以引入結構風險對模型的復雜度進行懲罰：
K=mink[RSSmin(k)+λk]
$\lambda$是平衡訓練誤差與簇的個數的參數，但是現在的問題又變成了如何選取$\lambda$了，有研究[參考文獻1]指出，在數據集滿足高斯分布時，$\lambda=2m$，其中m是向量的維度。
另一種方法是按遞增的順序嘗試不同的k值，同時畫出其對應的誤差值，通過尋求拐點來找到一個較好的k值，詳情見下面的文本聚類的例子。
k-means文本聚類
我爬取了36KR的部分文章，共1456篇，分詞後使用sklearn進行k-means聚類。分詞後數據記錄如下：
使用TF-IDF進行特徵詞的選取，下圖是中心點的個數從3到80對應的誤差值的曲線：
從上圖中在k=10處出現一個較明顯的拐點，因此選擇k=10作為中心點的個數，下面是10個簇的數據集的個數。
{0: 152, 1: 239, 2: 142, 3: 61, 4: 119, 5: 44, 6: 71, 7: 394, 8: 141, 9: 93}
簇標簽生成
聚類完成後，我們需要一些標簽來描述簇，聚類完後，相當於每個類都用一個類標，這時候可以用TFIDF、互信息、卡方等方法來選取特徵詞作為標簽。關於卡方和互信息特徵提取可以看我之前的文章文本特徵選擇，下面是10個類的tfidf標簽結果。
Cluster 0: 商家商品物流品牌支付導購網站購物平台訂單
Cluster 1: 投資融資美元公司資本市場獲得國內中國去年
Cluster 2: 手機智能硬體設備電視運動數據功能健康使用
Cluster 3: 數據平台市場學生 app 移動信息公司醫生教育
Cluster 4: 企業招聘人才平台公司 it 移動網站安全信息
Cluster 5: 社交好友交友寵物功能活動朋友基於分享游戲
Cluster 6: 記賬理財貸款銀行金融 p2p 投資互聯網基金公司
Cluster 7: 任務協作企業銷售溝通工作項目管理工具成員
Cluster 8: 旅行旅遊酒店預訂信息城市投資開放 app 需求
Cluster 9: 視頻內容游戲音樂圖片照片廣告閱讀分享功能
實現代碼
#!--encoding=utf-8
from __future__ import print_function
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import HashingVectorizer
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, MiniBatchKMeans
def loadDataset():
'''導入文本數據集'''
f = open('36krout.txt','r')
dataset = []
lastPage = None
for line in f.readlines():
if '< title >' in line and '< / title >' in line:
if lastPage:
dataset.append(lastPage)
lastPage = line
else:
lastPage += line
if lastPage:
dataset.append(lastPage)
f.close()
return dataset
def transform(dataset,n_features=1000):
vectorizer = TfidfVectorizer(max_df=0.5, max_features=n_features, min_df=2,use_idf=True)
X = vectorizer.fit_transform(dataset)
return X,vectorizer
def train(X,vectorizer,true_k=10,minibatch = False,showLable = False):
#使用采樣數據還是原始數據訓練k-means，
if minibatch:
km = MiniBatchKMeans(n_clusters=true_k, init='k-means++', n_init=1,
init_size=1000, batch_size=1000, verbose=False)
else:
km = KMeans(n_clusters=true_k, init='k-means++', max_iter=300, n_init=1,
verbose=False)
km.fit(X)
if showLable:
print("Top terms per cluster:")
order_centroids = km.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
print (vectorizer.get_stop_words())
for i in range(true_k):
print("Cluster %d:" % i, end='')
for ind in order_centroids[i, :10]:
print(' %s' % terms[ind], end='')
print()
result = list(km.predict(X))
print ('Cluster distribution:')
print (dict([(i, result.count(i)) for i in result]))
return -km.score(X)
def test():
'''測試選擇最優參數'''
dataset = loadDataset()
print("%d documents" % len(dataset))
X,vectorizer = transform(dataset,n_features=500)
true_ks = []
scores = []
for i in xrange(3,80,1):
score = train(X,vectorizer,true_k=i)/len(dataset)
print (i,score)
true_ks.append(i)
scores.append(score)
plt.figure(figsize=(8,4))
plt.plot(true_ks,scores,label="error",color="red",linewidth=1)
plt.xlabel("n_features")
plt.ylabel("error")
plt.legend()
plt.show()
def out():
'''在最優參數下輸出聚類結果'''
dataset = loadDataset()
X,vectorizer = transform(dataset,n_features=500)
score = train(X,vectorizer,true_k=10,showLable=True)/len(dataset)
print (score)
#test()
out()

『伍』文本特徵提取

在對文本數據進行處理時，很大一部分精力都用在數據集的特徵提取上，因此記錄一下常用的文本特徵提取方法。

文本特徵提取一般分為兩部分
（1）文本本身屬性：母音字數數、輔音字母數、···
（2）基於文本的特徵提取：TF-IDF等

比如提取以上文檔的特徵，基於文本本身可以提取特徵：
（1）字數：統計每一行text文本的詞彙數量（有多少個單詞）
（2）非重復單詞數量：統計每一行text文本中只出現一次的單詞個數
（3）長度：每一行text的長度,佔了多少存儲空間（包含空格、符號、字母等的長度）
（4）停止詞數量統計：between、but、about、very等詞彙的數量統計
（5）標點符號數量：每一行text中包含的標點符號數量
（6）大寫單詞數量：統計大寫單詞數量
（7）標題式單詞數量：統計單詞拼寫首字母是否為大寫,且其他字母為小寫的單詞數量
（8）單詞的平均長度：每一行text中每個單詞長度的平均值
這些特徵的提取不涉及復雜的函數計算，基於文本本身屬性提取直觀信息作為模型訓練的特徵。

TF-IDF演算法：計算單詞權重最為有效的實現方法就是TF-IDF, 它是由Salton在1988 年提出的,以特徵詞在文檔d中出現的次數與包含該特徵詞的文檔數之比作為該詞的權重。

python中使用TfidfVectorizer函數實現TF-IDF特徵的提取，生成每個text的TF-IDF特徵。

經過TF-IDF特徵提取後，數據集的特徵變數超級多（TF-IDF計算了整個數據集出現的所有單詞對每個test的權重），面對這樣龐大的特徵數據，可以通過SVD實現對數據集的壓縮。
SVD的原理是將龐大的TF-IDF生成的數據集A進行拆分，設置K值（想要壓縮得到的維度，例如K=20，壓縮後得到20列的特徵數據集）X就是只有K個特徵轉換後的數據集。

經過壓縮後的TF-IDF只有K列，與01中 基於文本本身特徵 合並，即為文本數據集的特徵向量。

導航:首頁 > 編程語言 > pythonvectorizer

pythonvectorizer

與pythonvectorizer相關的資料