1. python 2.7 调ICTCLAS2014为什么运行nlpir.py时,输出中文为乱码
在命令行下运行耐顷啊。我闹差记得是UTF-8编码昌弯陆就可以分词,如果不成就换成GB18030编码,比GBK要好用。
你不能在你的编辑器里运行python, 以后改变这种windows开发习惯, 用print代替调试。 不要在编辑器里运行, 要在命令行里运行。
2. 如何用 Python 中的 NLTK 对中文进行分析和处理
有很多好用的中文处理包:
Jieba:可以用来做分词,词性标注,TextRank
HanLP:分词,命名实体识别,依存句法分析,还有FudanNLP,NLPIR
个人觉得都比NLTK好用~
3. 目前常用的自然语言处理开源项目/开发包有哪些
中文主要有:NLTK,HanLP,Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR;英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp。HanLP:HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。开发语言:Java,网址:hankcs/HanLP,开发机构:大快公司,协议:Apache-2.0功能:非常多,主要有中文分词,词性标注,命名实体识别,关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析,文本分类:情感分析,word2vec,语料库工具。
4. 如何用 Python 中的 NLTK 对中文进行分析和处理
有很多好用的中文处理包蚂皮塌:
Jieba:可以用来做握慎分词,词性标注,TextRank
HanLP:分词,命名实体识别,依存句法分析,还有闷圆FudanNLP,NLPIR
5. 部分常用分词工具使用整理
以下分词工具均能在Python环境中直接调用(排名不分先后)。
1、jieba(结巴分词) 免费使用
2、HanLP(汉语言处理包) 免费使用
3、SnowNLP(中文的类库) 免费使用
4、FoolNLTK(中文处理工具包) 免费使用
5、Jiagu(甲骨NLP) 免费使用
6、pyltp(哈工大语言云) 商用需要付费
7、THULAC(清华中文词法分析工具包) 商用需要付费
8、NLPIR(汉语分词系统) 付费使用
1、jieba(结巴分词)
“结巴”中文分词:做最好的 Python 中文分词组件。
项目Github地址:jieba
安装 :
pip install jieba
使用 :
import jieba
jieba.initialize()
text = '化妆和服装'
words = jieba.cut(text)
words = list(words)
print(words)
2、HanLP(汉语言处理包)
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
项目Github地址:pyhanlp
安装:
pip install pyhanlp
使用 :
import pyhanlp
text = '化妆和服装'
words = []
for term in pyhanlp.HanLP.segment(text):
words.append(term.word)
print(words)
3、SnowNLP(中文的类库)
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。
项目Github地址:snownlp
安装:
pip install snownlp
使用:
import snownlp
text = '化妆和服装'
words = snownlp.SnowNLP(text).words
print(words)
4、FoolNLTK(中文处理工具包)
可能不是最快的开源中文分词,但很可能是最准的开源中文分词。
项目Github地址:FoolNLTK
安装:
pip install foolnltk
使用:
import fool
text = '化妆和服装'
words = fool.cut(text)
print(words)
5、Jiagu(甲骨NLP)
基于BiLSTM模型,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作,将Jiagu回馈给大家。
项目Github地址:jiagu
安装:
pip3 install jiagu
使用:
import jiagu
jiagu.init()
text = '化妆和服装'
words = jiagu.seg(text)
print(words)
6、pyltp(哈工大语言云)
pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。
项目Github地址:pyltp,3.4模型下载链接:网盘
安装:
pip install pyltp
使用:
import pyltp
segmentor = pyltp.Segmentor()
segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路径
text = '化妆和服装'
words = segmentor.segment(text)
words = list(words)
print(words)
7、THULAC(清华中文词法分析工具包)
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与 社会 人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。
项目Github地址:THULAC-Python
安装:
pip install thulac
使用:
import thulac
thu = thulac.thulac(seg_only=True)
text = '化妆和服装'
words = thu.cut(text, text=True).split()
print(words)
NLPIR(汉语分词系统)
主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。
项目Github地址:pynlpir
安装:
pip install pynlpir
下载证书覆盖到安装目录,NLPIR.user 例如安装目录:/usr/lib64/python3.4/site-packages/pynlpir/Data
使用 :
import pynlpir
pynlpir.open()
text = '化妆和服装'
words = pynlpir.segment(text, pos_tagging=False)
print(words)
pynlpir.close()
6. 自然语言处理和文本挖掘的关系
文胡陪本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。
文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所裤掘蠢以它与语言学的研究有着密切的联系,但又有重要的区别。
所以自然语言处理与文本挖掘是相互包含关系,可以相互联系相互影响。
而北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜散兆索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
7. 自然语言处理中语料预处理的方法
语料库清理
清洗语料库就是保留语料库中有用的数据,删除噪音数据。常见的清洗方法有:手动去重、对早烂齐、删除、贴标签等。
以下面的文字为例。这个文本不仅包含汉字,还包含数字、英文字符、标点符号等非常规字符,这些都是无意义的信息,需要清理。
像上面这种情况,清理方法主要是通过正则表达式。可以写一个简短的Python脚本来求解,代码如下:
清洁后的结果:
除了以上需要清理的形式,噪声数据还包括文本重复、错误、遗漏、异常等。清理的方法有手工处理,或者通过开发小工具,写个小程序,都可以清理数据。
分词
清理完数据,就可以进行下一步了:文本分割。文本分割,即将文本分割成单词。常用的分词方法有基于规则和基于统计的分词方法,统计样本内容来自一些标准语誉尘料库。
比如这句话:“小明住在朝阳区”,我们期望语料库统计后的分词结果是“小明住在朝阳区”,而不是“小明住在朝阳区”。那么你是如何做到这一点的呢?
从统计学的角度来说,可以用条件概率分布来解决。对于一个新句子,通过计算各种分词方法的联合分布概率,找到最大概率对应的分词方法,就是最好的分词。
到目前为止,研究人员已经开发了许多实用的分词工具,使用起来非常简单。如果对分庆睁禅词没有特殊要求,可以直接使用这些分词工具。
各种分词工具的列表。
词性标注
词性标注是指在切分结果中标注每个词的正确词性,即确定每个词是名词、动词、形容词还是其他词性的过程。
词性标注有很多重要的功能。
第一,消歧。有些词在不同的上下文或用法中有不同的意思。比如“这只狗的名字叫开心”和“我今天很开心”这两句话里,“开心”就有不同的意思。我们可以通过词性标注来区分它们。
第二,强化以词为基础的特征。以上面这句话为例。如果不进行词性标注,会将两个“开心”字视为词频为2的同义词,导致后续分析出错。
此外,词性标注具有标准化、词形还原和有效去除停用词的功能。
常用的词性标注方法包括基于规则和统计的算法,如最大熵词性标注和HMM词性标注。
接下来,我们来看一个词性标注的例子。你也可以自己试试:http://ictclas.nlpir.org/nlpir/
去阻止文字。
我们在接受新闻的时候,会过滤掉无效的信息,筛选出有用的信息。对于自然语言来说,去停词是一种明智的操作。
一篇课文,无论是中文还是英文,都有连词、虚词、语气词等无意义词,如“的”、“把”、“但是”等。这些词没有特定的含义,只是用来连接句子和增强语气。这些词对文本分析也没有帮助,所以我们需要对切分后的数据做停用词处理。
但是我们应该仔细决定删除哪种停用词。
下图列出了一些常用的非索引字表。您可以根据需要选择要删除的停用字词。
词频统计
词频统计是统计分词后的文本的词频。目的是找出对文本影响最大的词,是文本挖掘的重要手段。统计这些词的出现频率,可以帮助我们理解文章所强调的内容,进而方便后续的模型构建。
例如,我们可以统计四大古典小说之一的《红楼梦》中的前28个词,结果如下:
从上图可以看出,《红楼梦》中哪个人物的篇幅最多,曹雪芹更关注哪个人物。即使我们不是红学专家,也能从统计的词频中分析出一些关键信息。
8. initialization failed,nlpir python 怎么破解
以前ictclas014似乎只能在纯销windows下被python调用。我就成友明功过。 不过到了linux下比较麻烦。java调做告游用是可以的。但是python似乎有些麻烦。不过当时谷哥的code项目里有一个开源版本。 现在不用这么麻烦了。