pythonnltk分詞_如何利用Python對中文進行分詞處理

Ⅰ 如何用 python 中的 NLTK 對中文進行分析和處理

一、NLTK進行分詞
用到的函數：
nltk.sent_tokenize(text) #對文本按照句子進行分割
nltk.word_tokenize(sent) #對句子進行分詞

二、NLTK進行詞性標注
用到的函數：
nltk.pos_tag(tokens)#tokens是句子分詞後的結果，同樣是句子級的標注
三、NLTK進行命名實體識別（NER）

用到的函數：
nltk.ne_chunk(tags)#tags是句子詞性標注後的結果，同樣是句子級
上例中，有兩個命名實體，一個是Xi,這個應該是PER，被錯誤識別為GPE了；另一個事China，被正確識別為GPE。

Ⅱ 如何利用Python對中文進行分詞處理

python做中文分詞處理主要有以下幾種：結巴分詞、NLTK、THULAC
1、fxsjy/jieba
結巴的標語是：做最好的 Python 中文分片語件，或許從現在來看它沒做到最好，但是已經做到了使用的人最多。結巴分詞網上的學習資料和使用案例比較多，上手相對比較輕松，速度也比較快。
結巴的優點：
支持三種分詞模式
支持繁體分詞
支持自定義詞典
MIT 授權協議

2、THULAC：一個高效的中文詞法分析工具包
前兩天我在做有關於共享單車的用戶反饋分類，使用jieba分詞一直太過零散，分類分不好。後來江兄給我推薦了THULAC：由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包。THULAC的介面文檔很詳細，簡單易上手。
THULAC分詞的優點：
能力強。利用規模最大的人工分詞和詞性標注中文語料庫（約含5800萬字）訓練而成，模型標注能力強大。
准確率高。該工具包在標准數據集Chinese Treebank（CTB5）上分詞的F1值可達97.3％，詞性標注的F1值可達到92.9％
速度較快。同時進行分詞和詞性標注速度為300KB/s，每秒可處理約15萬字。只進行分詞速度達到1.3MB/s，速度比jieba慢

Python 解決中文編碼問題基本可以用以下邏輯：
utf8（輸入） ——> unicode（處理） ——> （輸出）utf8
Python 裡面處理的字元都是都是unicode 編碼，因此解決編碼問題的方法是把輸入的文本（無論是什麼編碼）解碼為（decode）unicode編碼，然後輸出時再編碼（encode）成所需編碼。
由於處理的一般為txt 文檔，所以最簡單的方法，是把txt 文檔另存為utf-8 編碼，然後使用Python 處理的時候解碼為unicode（sometexts.decode('utf8')），輸出結果回txt 的時候再編碼成utf8（直接用str() 函數就可以了）。

Ⅲ 如何用 Python 中的 NLTK 對中文進行分析和處理

我感覺用nltk 處理中文是完全可用的。其重點在於中文分詞和文本表達的形式。
中文和英文主要的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞，所以必須要先對文本進行分詞然後再用nltk 來處理（不需要用nltk 來做分詞，直接用分詞包就可以了。嚴重推薦結巴分詞，非常好用）。
中文分詞之後，文本就是一個由每個片語成的長數組：[word1, word2, word3…… wordn]。之後就可以使用nltk 裡面的各種方法來處理這個文本了。比如用FreqDist 統計文本詞頻，用bigrams 把文本變成雙片語的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。
再之後就可以用這些來計算文本詞語的信息熵、互信息等。
再之後可以用這些來選擇機器學習的特徵，構建分類器，對文本進行分類（商品評論是由多個獨立評論組成的多維數組，網上有很多情感分類的實現例子用的就是nltk 中的商品評論語料庫，不過是英文的。但整個思想是可以一致的）。

另外還有一個困擾很多人的Python 中文編碼問題。多次失敗後我總結出一些經驗。
Python 解決中文編碼問題基本可以用以下邏輯：
utf8（輸入） ——> unicode（處理） ——> （輸出）utf8
Python 裡面處理的字元都是都是unicode 編碼，因此解決編碼問題的方法是把輸入的文本（無論是什麼編碼）解碼為（decode）unicode編碼，然後輸出時再編碼（encode）成所需編碼。
由於處理的一般為txt 文檔，所以最簡單的方法，是把txt 文檔另存為utf-8 編碼，然後使用Python 處理的時候解碼為unicode（sometexts.decode('utf8')），輸出結果回txt 的時候再編碼成utf8（直接用str() 函數就可以了）。

熱點內容

程序員脖子痛如何緩解發布：2025-04-23 07:02:56 瀏覽：529

java加密aes對稱加密演算法發布：2025-04-23 06:58:45 瀏覽：595

格式工廠視頻壓縮方法發布：2025-04-23 06:46:06 瀏覽：475

編譯後的函數和原始函數如何對應發布：2025-04-23 06:18:38 瀏覽：621

闡述郵件加密解密過程發布：2025-04-23 06:10:09 瀏覽：400

敲沙子聲控解壓發布：2025-04-23 06:05:16 瀏覽：54

計算機教室用什麼伺服器發布：2025-04-23 06:00:31 瀏覽：800

華為暢享9怎麼設置簡訊加密發布：2025-04-23 05:52:11 瀏覽：285

中國現代編譯器發布：2025-04-23 05:40:59 瀏覽：850

如何得到app專欄發布：2025-04-23 05:33:09 瀏覽：453

魔獸世界日本伺服器什麼職業多發布：2025-04-23 05:03:52 瀏覽：729

表格加密怎麼設置只讀模式打開發布：2025-04-23 05:03:16 瀏覽：884

哪個app可以不用花唄分期發布：2025-04-23 05:03:11 瀏覽：860

SSL是對稱加密嗎發布：2025-04-23 04:53:53 瀏覽：46

捷途app鑰匙怎麼用發布：2025-04-23 04:53:09 瀏覽：960

享省油app怎麼在加油站使用發布：2025-04-23 04:36:51 瀏覽：250

crc演算法的實現c語言發布：2025-04-23 04:35:13 瀏覽：187

風光攝影pdf 發布：2025-04-23 04:35:13 瀏覽：938

頭部按摩器可以緩解壓力嗎發布：2025-04-23 04:25:12 瀏覽：652

格式工廠壓縮圖片大小發布：2025-04-23 04:22:04 瀏覽：892

導航:首頁 > 編程語言 > pythonnltk分詞

pythonnltk分詞

與pythonnltk分詞相關的資料