pythonnltk情感分析_如何用Python做情感分析

❶ 如何用 python 中的 NLTK 对中文进行分析和处理

我感觉用nltk 处理中文是完全可用的。其重点在于中文分词和文本表达的形式。
中文和英文主要的不同之处是中文需要分词。因为nltk 的处理粒度一般是词，所以必须要先对文本进行分词然后再用nltk 来处理（不需要用nltk 来做分词，直接用分词包就可以了。严重推荐结巴分词，非常好用）。
中文分词之后，文本就是一个由每个词组成的长数组：[word1, word2, word3…… wordn]。之后就可以使用nltk 里面的各种方法来处理这个文本了。比如用FreqDist 统计文本词频，用bigrams 把文本变成双词组的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。

❷ 如何用 Python 中的 NLTK 对中文进行分析和处理

中文和英文主要的不同之处是中文需要分词。因为nltk 的处理粒度一般是词，所以必须要先对文本进行分词然后再用nltk 来处理（不需要用nltk 来做分词，直接用分词包就可以了。严重推荐结巴分词，非常好用）。
中文分词之后，文本就是一个由每个词组成的长数组：[word1, word2, word3…… wordn]。之后就可以使用nltk 里面的各种方法来处理这个文本了。比如用FreqDist 统计文本词频，用bigrams 把文本变成双词组的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。
再之后就可以用这些来计算文本词语的信息熵、互信息等。
再之后可以用这些来选择机器学习的特征，构建分类器，对文本进行分类（商品评论是由多个独立评论组成的多维数组，网上有很多情感分类的实现例子用的就是nltk 中的商品评论语料库，不过是英文的。但整个思想是可以一致的）。

另外还有一个困扰很多人的Python 中文编码问题。多次失败后我总结出一些经验。
Python 解决中文编码问题基本可以用以下逻辑：
utf8（输入） ——> unicode（处理） ——> （输出）utf8
Python 里面处理的字符都是都是unicode 编码，因此解决编码问题的方法是把输入的文本（无论是什么编码）解码为（decode）unicode编码，然后输出时再编码（encode）成所需编码。
由于处理的一般为txt 文档，所以最简单的方法，是把txt 文档另存为utf-8 编码，然后使用Python 处理的时候解码为unicode（sometexts.decode('utf8')），输出结果回txt 的时候再编码成utf8（直接用str() 函数就可以了）。

❸ 如何用Python做情感分析

可以使用snownlp包，也可以用nltk 和 scikit-learn 结合，或者自己写算法实现。
简单话就是情感词典的匹配，想提高效果的需要考虑特征之间的搭配，语法顺序等，可以查询搜索相关的入门例子和算法详细了解。

❹ 怎样用python处理文本情感分析

Python 有良好的程序包可以进行情感分类，那就是Python 自然语言处理包，Natural Language Toolkit ，简称NLTK 。NLTK 当然不只是处理情感分析，NLTK 有着整套自然语言处理的工具，从分词到实体识别，从情感分类到句法分析，完整而丰富，功能强大。

❺ 如何用 Python 中的 NLTK 对中文进行分析和处理

一、NLTK进行分词

用到的函数：

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

二、NLTK进行词性标注

用到的函数：

nltk.pos_tag(tokens)#tokens是句子分词后的结果，同样是句子级的标注

三、NLTK进行命名实体识别（NER）

用到的函数：

nltk.ne_chunk(tags)#tags是句子词性标注后的结果，同样是句子级

上例中，有两个命名实体，一个是Xi,这个应该是PER，被错误识别为GPE了；另一个事China，被正确识别为GPE。

四、句法分析

nltk没有好的parser，推荐使用stanfordparser

但是nltk有很好的树类，该类用list实现

可以利用stanfordparser的输出构建一棵python的句法树

❻ Python SnowNLP情感分析实践与优化总结

由于语料缺乏，前期若使用到情感分析，建议暂时使用SnowNLP（此模块主要使用淘宝评论语料）做情感挖掘，但不仅仅为单纯调用，需要优化，下面是一些实践思考：

可在此基础上优化，比如文本需要特别处理，除了平常的去停用词外，还可以需要对输入的文本结合词性等进行处理。

下面是一些常识：

一）无情感的词语(如去停用词，去掉语气词，无词性标签的词语）

二）对于文本过长，则可以考虑提取关键词或抽取文本摘要后再提取关键词

对于后者实践结果差异明显：

以"发布了头条文章： 《5分钟11亿！京东双11场景化产品消费增长明显》 5分钟11亿！京东双11场景化产品消费增长明显 "为例子， 显然该文本为“积极****”文本。

1）s = SnowNLP（"发布了头条文章：《5分钟11亿！京东双11场景化产品消费增长明显》 5分钟11亿！京东双11场景化产品消费增长明显"）

得分为0.5，明显不符合

2）s = SnowNLP（“ ”.join(jieba.analyse.textrank("发布了头条文章：《5分钟11亿！京东双11场景化产品消费增长明显》 5分钟11亿！京东双11场景化产品消费增长明显")))

而对于文本特别长的，则可以先抽取摘要，再对摘要提取关键词。

这主要由于此SnowNLP主要用贝叶斯机器学习方法进行训练文本，机器学习在语料覆盖上不够，特征上工程处理不当会减分，也没考虑语义等。

为何要考虑语义层面：

以“ 苏宁易购，是谁给你们下架OV的勇气****” 中的“ 下架”其实才是中心词（为表达愤怒的文本），但“ 勇气 ”为下架的宾语（其为积极的文本），此句应该结果小于0.5，但实际为0.88，去掉“苏宁易购”则为0.6>

导航:首页 > 编程语言 > pythonnltk情感分析

pythonnltk情感分析

与pythonnltk情感分析相关的资料