pythonnltk處理中文_如何用 Python 中的 NLTK 對中文進行分析和處理

1. python中的nltk是什麼

nltk（natural
language
toolkit)是python的自然語言處理工具包。自然語言是指人們日常交流使用的語言，如英語，印地語，葡萄牙語等。「自然語言處理」（Natural
Language
Processing
簡稱NLP）包含所有用計算機對自然語言進行的操作，從最簡單的通過計數詞出現的頻率來比較不同的寫作風格，到最復雜的完全「理解」人所說的話，至少要能達到對人的話語作出有效反應的程度。

2. 如何用 Python 中的 NLTK 對中文進行分析和處理

最近正在用nltk 對中文網路商品評論進行褒貶情感分類，計算評論的信息熵（entropy）、互信息（point mutual information）和困惑值（perplexity）等（不過這些概念我其實也還理解不深...只是nltk 提供了相應方法）。
我感覺用nltk 處理中文是完全可用的。其重點在於中文分詞和文本表達的形式。
中文和英文主要的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞，所以必須要先對文本進行分詞然後再用nltk 來處理（不需要用nltk 來做分詞，直接用分詞包就可以了。嚴重推薦結巴分詞，非常好用）。
中文分詞之後，文本就是一個由每個片語成的長數組：[word1, word2, word3…… wordn]。之後就可以使用nltk 裡面的各種方法來處理這個文本了。比如用FreqDist 統計文本詞頻，用bigrams 把文本變成雙片語的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。
再之後就可以用這些來計算文本詞語的信息熵、互信息等。
再之後可以用這些來選擇機器學習的特徵，構建分類器，對文本進行分類（商品評論是由多個獨立評論組成的多維數組，網上有很多情感分類的實現例子用的就是nltk 中的商品評論語料庫，不過是英文的。但整個思想是可以一致的）。
另外還有一個困擾很多人的Python 中文編碼問題。多次失敗後我總結出一些經驗。
Python 解決中文編碼問題基本可以用以下邏輯：
utf8（輸入） ——> unicode（處理） ——> （輸出）utf8
Python 裡面處理的字元都是都是unicode 編碼，因此解決編碼問題的方法是把輸入的文本（無論是什麼編碼）解碼為（decode）unicode編碼，然後輸出時再編碼（encode）成所需編碼。
由於處理的一般為txt 文檔，所以最簡單的方法，是把txt 文檔另存為utf-8 編碼，然後使用Python 處理的時候解碼為unicode（sometexts.decode('utf8')），輸出結果回txt 的時候再編碼成utf8（直接用str() 函數就可以了）。

熱點內容

程序員放棄後會怎樣發布：2025-04-16 17:07:35 瀏覽：182

河北模具編程發布：2025-04-16 16:18:49 瀏覽：187

adb查找命令發布：2025-04-16 16:16:41 瀏覽：321

安卓手機視頻文件夾怎麼打開發布：2025-04-16 16:11:09 瀏覽：309

平板加密手機後怎麼關閉發布：2025-04-16 16:11:01 瀏覽：566

流媒體伺服器應該注意什麼發布：2025-04-16 16:06:58 瀏覽：536

d8命令編譯發布：2025-04-16 15:46:19 瀏覽：964

壓縮包解壓需要多少空間發布：2025-04-16 15:40:45 瀏覽：145

如何查找app屬性發布：2025-04-16 15:34:45 瀏覽：388

android人臉識別技術發布：2025-04-16 15:34:06 瀏覽：320

pc104編程發布：2025-04-16 15:28:20 瀏覽：335

二維碼反編譯破解推廣發布：2025-04-16 15:15:54 瀏覽：682

修改伺服器的mac地址發布：2025-04-16 15:15:09 瀏覽：528

好玩的編程軟體發布：2025-04-16 15:07:09 瀏覽：899

編程語言創始人有錢嗎發布：2025-04-16 15:05:42 瀏覽：804

短視頻app怎麼獲客發布：2025-04-16 14:55:39 瀏覽：15

查看雲伺服器的應用發布：2025-04-16 14:52:54 瀏覽：435

javadump工具發布：2025-04-16 14:42:45 瀏覽：564

程序員16g 發布：2025-04-16 14:41:53 瀏覽：444

程序員沒有辦法成為top怎麼辦發布：2025-04-16 14:39:37 瀏覽：218

導航:首頁 > 編程語言 > pythonnltk處理中文

pythonnltk處理中文

與pythonnltk處理中文相關的資料