Python開源漢語分詞軟體_如何利用Python對中文進行分詞處理

1. 如何利用python對中文進行分詞處理

python做中文分詞處理主要有以下幾種：結巴分詞、NLTK、THULAC
1、fxsjy/jieba
結巴的標語是：做最好的 Python 中文分片語件，或許從現在來看它沒做到最好，但是已經做到了使用的人最多。結巴分詞網上的學習資料和使用案例比較多，上手相對比較輕松，速度也比較快。
結巴的優點：
支持三種分詞模式
支持繁體分詞
支持自定義詞典
MIT 授權協議

2、THULAC：一個高效的中文詞法分析工具包
前兩天我在做有關於共享單車的用戶反饋分類，使用jieba分詞一直太過零散，分類分不好。後來江兄給我推薦了THULAC：由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包。THULAC的介面文檔很詳細，簡單易上手。
THULAC分詞的優點：
能力強。利用規模最大的人工分詞和詞性標注中文語料庫（約含5800萬字）訓練而成，模型標注能力強大。
准確率高。該工具包在標准數據集Chinese Treebank（CTB5）上分詞的F1值可達97.3％，詞性標注的F1值可達到92.9％
速度較快。同時進行分詞和詞性標注速度為300KB/s，每秒可處理約15萬字。只進行分詞速度達到1.3MB/s，速度比jieba慢

Python 解決中文編碼問題基本可以用以下邏輯：
utf8（輸入） ——> unicode（處理） ——> （輸出）utf8
Python 裡面處理的字元都是都是unicode 編碼，因此解決編碼問題的方法是把輸入的文本（無論是什麼編碼）解碼為（decode）unicode編碼，然後輸出時再編碼（encode）成所需編碼。
由於處理的一般為txt 文檔，所以最簡單的方法，是把txt 文檔另存為utf-8 編碼，然後使用Python 處理的時候解碼為unicode（sometexts.decode('utf8')），輸出結果回txt 的時候再編碼成utf8（直接用str() 函數就可以了）。

2. 怎麼是用python 語言使用結巴分詞呢

Python代碼

#encoding=utf-8
importjieba

seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式

seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)

輸出：

FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學

DefaultMode:我/來到/北京/清華大學

他,來到,了,網易,杭研,大廈(此處，「杭研」並沒有在詞典中，但是也被Viterbi演算法識別出來了)

3. python中怎樣處理漢語的同義詞用結巴分詞

python中文分詞：結巴分詞
中文分詞是中文文本處理的一個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點：
基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)
採用了動態規劃查找最大概率路徑, 找出基於詞頻的最大切分組合
對於未登錄詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi演算法
安裝（Linux環境）
下載工具包，解壓後進入目錄下，運行：python setup.py install

模式
默認模式，試圖將句子最精確地切開，適合文本分析
全模式，把句子中所有的可以成詞的詞語都掃描出來，適合搜索引擎

介面
組件只提供jieba.cut 方法用於分詞
cut方法接受兩個輸入參數：
第一個參數為需要分詞的字元串
cut_all參數用來控制分詞模式
待分詞的字元串可以是gbk字元串、utf-8字元串或者unicode
jieba.cut返回的結構是一個可迭代的generator，可以使用for循環來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉化為list

實例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我來到北京清華大學")
print "Default Mode:", ' '.join(seg_list)

4. 部分常用分詞工具使用整理

以下分詞工具均能在Python環境中直接調用（排名不分先後）。

1、jieba（結巴分詞）免費使用

2、HanLP（漢語言處理包）免費使用

3、SnowNLP（中文的類庫）免費使用

4、FoolNLTK（中文處理工具包）免費使用

5、Jiagu（甲骨NLP）免費使用

6、pyltp（哈工大語言雲）商用需要付費

7、THULAC（清華中文詞法分析工具包）商用需要付費

8、NLPIR（漢語分詞系統）付費使用

1、jieba（結巴分詞）

「結巴」中文分詞：做最好的 Python 中文分片語件。

項目Github地址：jieba

安裝：

pip install jieba

使用：

import jieba

jieba.initialize()

text = '化妝和服裝'

words = jieba.cut(text)

words = list(words)

print(words)

2、HanLP（漢語言處理包）

HanLP是一系列模型與演算法組成的NLP工具包，由大快搜索主導並完全開源，目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。

項目Github地址：pyhanlp

安裝：

pip install pyhanlp

使用：

import pyhanlp

text = '化妝和服裝'

words = []

for term in pyhanlp.HanLP.segment(text):

words.append(term.word)

print(words)

3、SnowNLP（中文的類庫）

SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啟發而寫的，由於現在大部分的自然語言處理庫基本都是針對英文的，於是寫了一個方便處理中文的類庫，並且和TextBlob不同的是，這里沒有用NLTK，所有的演算法都是自己實現的，並且自帶了一些訓練好的字典。

項目Github地址：snownlp

安裝：

pip install snownlp

使用：

import snownlp

text = '化妝和服裝'

words = snownlp.SnowNLP(text).words

print(words)

4、FoolNLTK（中文處理工具包）

可能不是最快的開源中文分詞，但很可能是最準的開源中文分詞。

項目Github地址：FoolNLTK

安裝：

pip install foolnltk

使用：

import fool

text = '化妝和服裝'

words = fool.cut(text)

print(words)

5、Jiagu（甲骨NLP）

基於BiLSTM模型，使用大規模語料訓練而成。將提供中文分詞、詞性標注、命名實體識別、關鍵詞抽取、文本摘要、新詞發現等常用自然語言處理功能。參考了各大工具優缺點製作，將Jiagu回饋給大家。

項目Github地址：jiagu

安裝：

pip3 install jiagu

使用：

import jiagu

jiagu.init()

text = '化妝和服裝'

words = jiagu.seg(text)

print(words)

6、pyltp（哈工大語言雲）

pyltp 是 LTP 的 Python 封裝，提供了分詞，詞性標注，命名實體識別，依存句法分析，語義角色標注的功能。

項目Github地址：pyltp，3.4模型下載鏈接：網盤

安裝：

pip install pyltp

使用：

import pyltp

segmentor = pyltp.Segmentor()

segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路徑

text = '化妝和服裝'

words = segmentor.segment(text)

words = list(words)

print(words)

7、THULAC（清華中文詞法分析工具包）

THULAC（THU Lexical Analyzer for Chinese）由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包，具有中文分詞和詞性標注功能。

項目Github地址：THULAC-Python

安裝：

pip install thulac

使用：

import thulac

thu = thulac.thulac(seg_only=True)

text = '化妝和服裝'

words = thu.cut(text, text=True).split()

print(words)

NLPIR（漢語分詞系統）

主要功能包括中文分詞；英文分詞；詞性標注；命名實體識別；新詞識別；關鍵詞提取；支持用戶專業詞典與微博分析。NLPIR系統支持多種編碼、多種操作系統、多種開發語言與平台。

項目Github地址：pynlpir

安裝：

pip install pynlpir

下載證書覆蓋到安裝目錄，NLPIR.user 例如安裝目錄：/usr/lib64/python3.4/site-packages/pynlpir/Data

使用：

import pynlpir

pynlpir.open()

text = '化妝和服裝'

words = pynlpir.segment(text, pos_tagging=False)

print(words)

pynlpir.close()

導航:首頁 > 編程語言 > Python開源漢語分詞軟體

Python開源漢語分詞軟體

與Python開源漢語分詞軟體相關的資料