1. python 2.7 調ICTCLAS2014為什麼運行nlpir.py時,輸出中文為亂碼
在命令行下運行耐頃啊。我鬧差記得是UTF-8編碼昌彎陸就可以分詞,如果不成就換成GB18030編碼,比GBK要好用。
你不能在你的編輯器里運行python, 以後改變這種windows開發習慣, 用print代替調試。 不要在編輯器里運行, 要在命令行里運行。
2. 如何用 Python 中的 NLTK 對中文進行分析和處理
有很多好用的中文處理包:
Jieba:可以用來做分詞,詞性標注,TextRank
HanLP:分詞,命名實體識別,依存句法分析,還有FudanNLP,NLPIR
個人覺得都比NLTK好用~
3. 目前常用的自然語言處理開源項目/開發包有哪些
中文主要有:NLTK,HanLP,Ansj,THULAC,結巴分詞,FNLP,哈工大LTP,中科院ICTCLAS分詞,GATE,SnowNLP,東北大學NiuTrans,NLPIR;英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的開源NLP工具主要參見StackoverFlow-java or python for nlp。HanLP:HanLP是由一系列模型與演算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。開發語言:Java,網址:hankcs/HanLP,開發機構:大快公司,協議:Apache-2.0功能:非常多,主要有中文分詞,詞性標注,命名實體識別,關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析,文本分類:情感分析,word2vec,語料庫工具。
4. 如何用 Python 中的 NLTK 對中文進行分析和處理
有很多好用的中文處理包螞皮塌:
Jieba:可以用來做握慎分詞,詞性標注,TextRank
HanLP:分詞,命名實體識別,依存句法分析,還有悶圓FudanNLP,NLPIR
5. 部分常用分詞工具使用整理
以下分詞工具均能在Python環境中直接調用(排名不分先後)。
1、jieba(結巴分詞) 免費使用
2、HanLP(漢語言處理包) 免費使用
3、SnowNLP(中文的類庫) 免費使用
4、FoolNLTK(中文處理工具包) 免費使用
5、Jiagu(甲骨NLP) 免費使用
6、pyltp(哈工大語言雲) 商用需要付費
7、THULAC(清華中文詞法分析工具包) 商用需要付費
8、NLPIR(漢語分詞系統) 付費使用
1、jieba(結巴分詞)
「結巴」中文分詞:做最好的 Python 中文分片語件。
項目Github地址:jieba
安裝 :
pip install jieba
使用 :
import jieba
jieba.initialize()
text = '化妝和服裝'
words = jieba.cut(text)
words = list(words)
print(words)
2、HanLP(漢語言處理包)
HanLP是一系列模型與演算法組成的NLP工具包,由大快搜索主導並完全開源,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
項目Github地址:pyhanlp
安裝:
pip install pyhanlp
使用 :
import pyhanlp
text = '化妝和服裝'
words = []
for term in pyhanlp.HanLP.segment(text):
words.append(term.word)
print(words)
3、SnowNLP(中文的類庫)
SnowNLP是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文的類庫,並且和TextBlob不同的是,這里沒有用NLTK,所有的演算法都是自己實現的,並且自帶了一些訓練好的字典。
項目Github地址:snownlp
安裝:
pip install snownlp
使用:
import snownlp
text = '化妝和服裝'
words = snownlp.SnowNLP(text).words
print(words)
4、FoolNLTK(中文處理工具包)
可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞。
項目Github地址:FoolNLTK
安裝:
pip install foolnltk
使用:
import fool
text = '化妝和服裝'
words = fool.cut(text)
print(words)
5、Jiagu(甲骨NLP)
基於BiLSTM模型,使用大規模語料訓練而成。將提供中文分詞、詞性標注、命名實體識別、關鍵詞抽取、文本摘要、新詞發現等常用自然語言處理功能。參考了各大工具優缺點製作,將Jiagu回饋給大家。
項目Github地址:jiagu
安裝:
pip3 install jiagu
使用:
import jiagu
jiagu.init()
text = '化妝和服裝'
words = jiagu.seg(text)
print(words)
6、pyltp(哈工大語言雲)
pyltp 是 LTP 的 Python 封裝,提供了分詞,詞性標注,命名實體識別,依存句法分析,語義角色標注的功能。
項目Github地址:pyltp,3.4模型下載鏈接:網盤
安裝:
pip install pyltp
使用:
import pyltp
segmentor = pyltp.Segmentor()
segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路徑
text = '化妝和服裝'
words = segmentor.segment(text)
words = list(words)
print(words)
7、THULAC(清華中文詞法分析工具包)
THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與 社會 人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標注功能。
項目Github地址:THULAC-Python
安裝:
pip install thulac
使用:
import thulac
thu = thulac.thulac(seg_only=True)
text = '化妝和服裝'
words = thu.cut(text, text=True).split()
print(words)
NLPIR(漢語分詞系統)
主要功能包括中文分詞;英文分詞;詞性標注;命名實體識別;新詞識別;關鍵詞提取;支持用戶專業詞典與微博分析。NLPIR系統支持多種編碼、多種操作系統、多種開發語言與平台。
項目Github地址:pynlpir
安裝:
pip install pynlpir
下載證書覆蓋到安裝目錄,NLPIR.user 例如安裝目錄:/usr/lib64/python3.4/site-packages/pynlpir/Data
使用 :
import pynlpir
pynlpir.open()
text = '化妝和服裝'
words = pynlpir.segment(text, pos_tagging=False)
print(words)
pynlpir.close()
6. 自然語言處理和文本挖掘的關系
文胡陪本挖掘指的是從文本數據中獲取有價值的信息和知識,它是數據挖掘中的一種方法。文本挖掘中最重要最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘演算法,後者是無監督的挖掘演算法。
文本挖掘是一個多學科混雜的領域,涵蓋了多種技術,包括數據挖掘技術、信息抽取、信息檢索,機器學習、自然語言處理、計算語言學、統計數據分析、線性幾何、概率理論甚至還有圖論。
自然語言處理是計算機科學領域與人工智慧領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所褲掘蠢以它與語言學的研究有著密切的聯系,但又有重要的區別。
所以自然語言處理與文本挖掘是相互包含關系,可以相互聯系相互影響。
而北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平台是根據中文數據挖掘的綜合需求,融合了網路精準採集、自然語言理解、文本挖掘和語義搜散兆索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平台。
NLPIR大數據語義智能分析平台主要有精準採集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十餘項功能模塊,平台提供了客戶端工具,雲服務與二次開發介面等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容Windows,linux, Android,Maemo5, FreeBSD等不同操作系統平台,可以供Java,Python,C,C#等各類開發語言使用。
7. 自然語言處理中語料預處理的方法
語料庫清理
清洗語料庫就是保留語料庫中有用的數據,刪除噪音數據。常見的清洗方法有:手動去重、對早爛齊、刪除、貼標簽等。
以下面的文字為例。這個文本不僅包含漢字,還包含數字、英文字元、標點符號等非常規字元,這些都是無意義的信息,需要清理。
像上面這種情況,清理方法主要是通過正則表達式。可以寫一個簡短的Python腳本來求解,代碼如下:
清潔後的結果:
除了以上需要清理的形式,雜訊數據還包括文本重復、錯誤、遺漏、異常等。清理的方法有手工處理,或者通過開發小工具,寫個小程序,都可以清理數據。
分詞
清理完數據,就可以進行下一步了:文本分割。文本分割,即將文本分割成單詞。常用的分詞方法有基於規則和基於統計的分詞方法,統計樣本內容來自一些標准語譽塵料庫。
比如這句話:「小明住在朝陽區」,我們期望語料庫統計後的分詞結果是「小明住在朝陽區」,而不是「小明住在朝陽區」。那麼你是如何做到這一點的呢?
從統計學的角度來說,可以用條件概率分布來解決。對於一個新句子,通過計算各種分詞方法的聯合分布概率,找到最大概率對應的分詞方法,就是最好的分詞。
到目前為止,研究人員已經開發了許多實用的分詞工具,使用起來非常簡單。如果對分慶睜禪詞沒有特殊要求,可以直接使用這些分詞工具。
各種分詞工具的列表。
詞性標注
詞性標注是指在切分結果中標注每個詞的正確詞性,即確定每個詞是名詞、動詞、形容詞還是其他詞性的過程。
詞性標注有很多重要的功能。
第一,消歧。有些詞在不同的上下文或用法中有不同的意思。比如「這只狗的名字叫開心」和「我今天很開心」這兩句話里,「開心」就有不同的意思。我們可以通過詞性標注來區分它們。
第二,強化以詞為基礎的特徵。以上面這句話為例。如果不進行詞性標注,會將兩個「開心」字視為詞頻為2的同義詞,導致後續分析出錯。
此外,詞性標注具有標准化、詞形還原和有效去除停用詞的功能。
常用的詞性標注方法包括基於規則和統計的演算法,如最大熵詞性標注和HMM詞性標注。
接下來,我們來看一個詞性標注的例子。你也可以自己試試:http://ictclas.nlpir.org/nlpir/
去阻止文字。
我們在接受新聞的時候,會過濾掉無效的信息,篩選出有用的信息。對於自然語言來說,去停詞是一種明智的操作。
一篇課文,無論是中文還是英文,都有連詞、虛詞、語氣詞等無意義詞,如「的」、「把」、「但是」等。這些詞沒有特定的含義,只是用來連接句子和增強語氣。這些詞對文本分析也沒有幫助,所以我們需要對切分後的數據做停用詞處理。
但是我們應該仔細決定刪除哪種停用詞。
下圖列出了一些常用的非索引字表。您可以根據需要選擇要刪除的停用字詞。
詞頻統計
詞頻統計是統計分詞後的文本的詞頻。目的是找出對文本影響最大的詞,是文本挖掘的重要手段。統計這些詞的出現頻率,可以幫助我們理解文章所強調的內容,進而方便後續的模型構建。
例如,我們可以統計四大古典小說之一的《紅樓夢》中的前28個詞,結果如下:
從上圖可以看出,《紅樓夢》中哪個人物的篇幅最多,曹雪芹更關注哪個人物。即使我們不是紅學專家,也能從統計的詞頻中分析出一些關鍵信息。
8. initialization failed,nlpir python 怎麼破解
以前ictclas014似乎只能在純銷windows下被python調用。我就成友明功過。 不過到了linux下比較麻煩。java調做告游用是可以的。但是python似乎有些麻煩。不過當時谷哥的code項目里有一個開源版本。 現在不用這么麻煩了。