python判断舆情分析_python如何做数据分析

Ⅰ 舆情应对与大数据分析的工作经验，如果在企业中是什么样的职位（例：公关、品牌、市场总监为什么）

我们的是大数据部

Ⅱ 用python怎样从语句中分析人们讨论的热点

简单一点的方法：分词-->去除停用词-->统计高频词汇
稍微复杂一点的方法：分词-->去除停用词-->LDA主题模型训练-->言论主题分类并得到主题词
更复杂一点的方法：在上一个方法的基础上，添加“情绪识别”、“实体识别”等。
PS：建议将此问题添加到“机器学习”、“自然语言处理”话题下。

Ⅲ 如何用python做舆情时间序列可视化

如何批量处理评论信息情感分析，并且在时间轴上可视化呈现？舆情分析并不难，让我们用Python来实现它吧。
痛点
你是一家连锁火锅店的区域经理，很注重顾客对餐厅的评价。从前，你苦恼的是顾客不爱写评价。最近因为餐厅火了，分店越来越多，写评论的顾客也多了起来，于是你新的痛苦来了——评论太多了，读不过来。
从我这儿，你了解到了情感分析这个好用的自动化工具，一下子觉得见到了曙光。
你从某知名点评网站上，找到了自己一家分店的页面，让助手把上面的评论和发布时间数据弄下来。因为助手不会用爬虫，所以只能把评论从网页上一条条复制粘贴到Excel里。下班的时候，才弄下来27条。（注意这里我们使用的是真实评论数据。为了避免对被评论商家造成困扰，统一将该餐厅的名称替换为“A餐厅”。特此说明。）
好在你只是想做个试验而已，将就了吧。你用我之前介绍的中文信息情感分析工具，依次得出了每一条评论的情感数值。刚开始做出结果的时候，你很兴奋，觉得自己找到了舆情分析的终极利器。
可是美好的时光总是短暂的。很快你就发现，如果每一条评论都分别运行一次程序，用机器来做分析，还真是不如自己挨条去读省事儿。
怎么办呢？
序列
办法自然是有的。我们可以利用《贷还是不贷：如何用Python和机器学习帮你决策？》一文介绍过的数据框，一次性处理多个数据，提升效率。
但是这还不够，我们还可以把情感分析的结果在时间序列上可视化出来。这样你一眼就可以看见趋势——近一段时间里，大家是对餐厅究竟是更满意了，还是越来越不满意呢？
我们人类最擅长处理的，就是图像。因为漫长的进化史逼迫我们不断提升对图像快速准确的处理能力，否则就会被环境淘汰掉。因此才会有“一幅图胜过千言万语”的说法。
准备
首先，你需要安装Anaconda套装。详细的流程步骤请参考《如何用Python做词云》一文。
助手好不容易做好的Excel文件restaurant-comments.xlsx，请从这里下载。
用Excel打开，如果一切正常，请将该文件移动到咱们的工作目录demo下。
因为本例中我们需要对中文评论作分析，因此使用的软件包为SnowNLP。情感分析的基本应用方法，请参考《如何用Python做情感分析？》。
到你的系统“终端”(macOS, Linux)或者“命令提示符”(Windows)下，进入我们的工作目录demo，执行以下命令。
pip install snownlp
pip install ggplot

运行环境配置完毕。
在终端或者命令提示符下键入：
jupyter notebook

如果Jupyter Notebook正确运行，下面我们就可以开始编写代码了。
代码
我们在Jupyter Notebook中新建一个Python 2笔记本，起名为time-series。
首先我们引入数据框分析工具Pandas，简写成pd以方便调用。
import pandas as pd

接着，读入Excel数据文件：
df = pd.read_excel("restaurant-comments.xlsx")

我们看看读入内容是否完整：
df.head()

结果如下：
注意这里的时间列。如果你的Excel文件里的时间格式跟此处一样，包含了日期和时间，那么Pandas会非常智能地帮你把它识别为时间格式，接着往下做就可以了。
反之，如果你获取到的时间只精确到日期，例如"2017-04-20"这样，那么Pandas只会把它当做字符串，后面的时间序列分析无法使用字符串数据。解决办法是在这里加入以下两行代码：
from dateutil import parser
df["date"] = df.date.apply(parser.parse)

这样，你就获得了正确的时间数据了。
确认数据完整无误后，我们要进行情感分析了。先用第一行的评论内容做个小实验。
text = df.comments.iloc[0]

然后我们调用SnowNLP情感分析工具。
from snownlp import SnowNLP
s = SnowNLP(text)

显示一下SnowNLP的分析结果：
s.sentiments

结果为：
0.6331975099099649

情感分析数值可以正确计算。在此基础上，我们需要定义函数，以便批量处理所有的评论信息。
def get_sentiment_cn(text):
s = SnowNLP(text) return s.sentiments

然后，我们利用Python里面强大的apply语句，来一次性处理所有评论，并且将生成的情感数值在数据框里面单独存为一列，称为sentiment。
df["sentiment"] = df.comments.apply(get_sentiment_cn)

我们看看情感分析结果：
df.head()

新的列sentiment已经生成。我们之前介绍过，SnowNLP的结果取值范围在0到1之间，代表了情感分析结果为正面的可能性。通过观察前几条数据，我们发现点评网站上，顾客对这家分店评价总体上还是正面的，而且有的评论是非常积极的。
但是少量数据的观察，可能造成我们结论的偏颇。我们来把所有的情感分析结果数值做一下平均。使用mean()函数即可。
df.sentiment.mean()

结果为：
0.7114015318571119

结果数值超过0.7，整体上顾客对这家店的态度是正面的。
我们再来看看中位数值，使用的函数为median()。
df.sentiment.median()

结果为：
0.9563139038622388

我们发现了有趣的现象——中位数值不仅比平均值高，而且几乎接近1（完全正面）。
这就意味着，大部分的评价一边倒表示非常满意。但是存在着少部分异常点，显着拉低了平均值。
下面我们用情感的时间序列可视化功能，直观查看这些异常点出现在什么时间，以及它们的数值究竟有多低。
我们需要使用ggplot绘图工具包。这个工具包原本只在R语言中提供，让其他数据分析工具的用户羡慕得流口水。幸好，后来它很快被移植到了Python平台。
我们从ggplot中引入绘图函数，并且让Jupyter Notebook可以直接显示图像。
%pylab inlinefrom ggplot import *

这里可能会报一些警告信息。没有关系，不理会就是了。
下面我们绘制图形。这里你可以输入下面这一行语句。
ggplot(aes(x="date", y="sentiment"), data=df) + geom_point() + geom_line(color = 'blue') + scale_x_date(labels = date_format("%Y-%m-%d"))

你可以看到ggplot的绘图语法是多么简洁和人性化。只需要告诉Python自己打算用哪个数据框，从中选择哪列作为横轴，哪列作为纵轴，先画点，后连线，并且可以指定连线的颜色。然后，你需要让X轴上的日期以何种格式显示出来。所有的参数设定跟自然语言很相似，直观而且易于理解。
执行后，就可以看到结果图形了。
在图中，我们发现许多正面评价情感分析数值极端的高。同时，我们也清晰地发现了那几个数值极低的点。对应评论的情感分析数值接近于0。这几条评论，被Python判定为基本上没有正面情感了。
从时间上看，最近一段时间，几乎每隔几天就会出现一次比较严重的负面评价。
作为经理，你可能如坐针毡。希望尽快了解发生了什么事儿。你不用在数据框或者Excel文件里面一条条翻找情感数值最低的评论。Python数据框Pandas为你提供了非常好的排序功能。假设你希望找到所有评论里情感分析数值最低的那条，可以这样执行：
df.sort(['sentiment'])[:1]

结果为：
情感分析结果数值几乎就是0啊！不过这里数据框显示评论信息不完全。我们需要将评论整体打印出来。
print(df.sort(['sentiment']).iloc[0].comments)

评论完整信息如下：
这次是在情人节当天过去的，以前从来没在情人节正日子出来过，不是因为没有男朋友，而是感觉哪哪人都多，所以特意错开，这次实在是馋A餐厅了，所以赶在正日子也出来了，从下午四点多的时候我看排号就排到一百多了，我从家开车过去得堵的话一个小时，我一看提前两个小时就在网上先排着号了，差不多我们是六点半到的，到那的时候我看号码前面还有才三十多号，我想着肯定没问题了，等一会就能吃上的，没想到悲剧了，就从我们到那坐到等位区开始，大约是十分二十分一叫号，中途多次我都想走了，哈哈，哎，等到最后早上九点才吃上的，服务员感觉也没以前清闲时周到了，不过这肯定的，一人负责好几桌，今天节日这么多人，肯定是很累的，所以大多也都是我自己跑腿，没让服务员给弄太多，就虾滑让服务员下的，然后环境来说感觉卫生方面是不错，就是有些太吵了，味道还是一如既往的那个味道，不过A餐厅最人性化的就是看我们等了两个多小时，上来送了我们一张打折卡，而且当次就可以使用，这点感觉还是挺好的，不愧是A餐厅，就是比一般的要人性化，不过这次就是选错日子了，以后还是得提前预约，要不就别赶节日去，太火爆了！
通过阅读，你可以发现这位顾客确实有了一次比较糟糕的体验——等候的时间太长了，以至于使用了“悲剧”一词；另外还提及服务不够周到，以及环境吵闹等因素。正是这些词汇的出现，使得分析结果数值非常低。
好在顾客很通情达理，而且对该分店的人性化做法给予了正面的评价。
从这个例子，你可以看出，虽然情感分析可以帮你自动化处理很多内容，然而你不能完全依赖它。
自然语言的分析，不仅要看表达强烈情感的关键词，也需要考虑到表述方式和上下文等诸多因素。这些内容，是现在自然语言处理领域的研究前沿。我们期待着早日应用到科学家们的研究成果，提升情感分析的准确度。
不过，即便目前的情感分析自动化处理不能达到非常准确，却依然可以帮助你快速定位到那些可能有问题的异常点(anomalies)。从效率上，比人工处理要高出许多。
你读完这条评论，长出了一口气。总结了经验教训后，你决定将人性化的服务贯彻到底。你又想到，可以收集用户等候时长数据，用数据分析为等待就餐的顾客提供更为合理的等待时长预期。这样就可以避免顾客一直等到很晚了。
祝贺你，经理！在数据智能时代，你已经走在了正确的方向上。
下面，你该认真阅读下一条负面评论了……
讨论
除了情感分析和时间序列可视化，你觉得还可以如何挖掘中文评论信息？除了点评网站之外，你还知道哪些舆情分析的数据来源？欢迎留言分享给大家，我们一起交流讨论。
如果你对我的文章感兴趣，欢迎点赞，并且微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。
如果你身边有好友正在做舆情分析的研究工作，也欢迎你把这篇文章转发给他们，共同学习和提高。

Ⅳ 大数据舆情监测与分析工作怎么做

建议考虑时下火爆的python，python不仅入门简单，灵活高效。更是在人工智能方面应用广泛,对将来大有裨益。

Ⅳ python怎么做数据分析

无论是自学还是怎么的，记住自己学习Python的目标——从事数据科学，而非Python软件开发。所以，Python入门的方向，应该是掌握Python所有的相关概念、基础知识，为后续Python库的学习打基础。

需要掌握的数据分析基本库有

Numpy

Numpy是Python科学计算的基础包。

Pandas

它提供了复杂精细的索引功能，能更加便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。因为数据操作、准备、清洗是数据分析最重要的技能，所以Pandas也是学习的重点。

Matplotlib

Matplotlib是最流行的用于绘制图表和其它二维数据可视化的Python库，它非常适合创建出版物上用的图表。

Scikit-learn

Scikit-learn是Python的通用机器学习工具包。它的子模块包括分类、回归、聚类、降维、选型、预处理，对于Python成为高效数据科学编程语言起到了关键作用。

只需要学习Python入门的知识以及4个数据分析相关的库，就能上手使用Python进行数据分析了。另外如果需要获取外部网站数据的话，还需要学习爬虫。

Ⅵ 用python找文献，并从文本中分析情绪，做一个数据分析

到你的系统“终端”(macOS, Linux)或者“命令提示符”(Windows)下，进入我们的工作目录demo，执行以下命令。
pip install snownlppip install -U textblobpython -m textblob.download_corpora

好了，至此你的情感分析运行环境已经配置完毕。
在终端或者命令提示符下键入：
jupyter notebook

你会看到目录里之前的那些文件，忽略他们就好。

Ⅶ 如何使用Python工具分析风险数据

1、引入工具–加载数据分析包
启动IPython notebook，加载运行环境：
%matplotlib inline
import pandas as pd
from datetime import timedelta, datetime
import matplotlib.pyplot as plt
import numpy as np
2、数据准备
俗话说: 巧妇难为无米之炊。小安分析的数据主要是用户使用代理IP访问日志记录信息，要分析的原始数据以CSV的形式存储。这里首先要介绍到pandas.read_csv这个常用的方法，它将数据读入DataFrame
analysis_data = pd.read_csv('./honeypot_data.csv')
对的, 一行代码就可以将全部数据读到一个二维的表结构DataFrame变量，感觉很简单有木有啊!!!当然了用Pandas提供的IO工具你也可以将大文件分块读取，再此小安测试了一下性能，完整加载约21530000万条数据也大概只需要90秒左右，性能还是相当不错。
3、数据管窥
一般来讲，分析数据之前我们首先要对数据有一个大体上的了解，比如数据总量有多少，数据有哪些变量，数据变量的分布情况，数据重复情况，数据缺失情况，数据中异常值初步观测等等。下面小安带小伙伴们一起来管窥管窥这些数据。
使用shape方法查看数据行数及列数
analysis_data.shape
Out: (21524530, 22) #这是有22个维度，共计21524530条数据记的DataFrame
使用head()方法默认查看前5行数据，另外还有tail()方法是默认查看后5行,当然可以输入参数来查看自定义行数
analysis_data.head(10)
这里可以了解到我们数据记录有用户使用代理IP日期，代理header信息，代理访问域名，代理方法，源ip以及蜜罐节点信息等等。在此小安一定一定要告诉你，小安每次做数据分析时必定使用的方法–describe方法。pandas的describe()函数能对数据进行快速统计汇总：
对于数值类型数据，它会计算出每个变量：总个数，平均值，最大值，最小值，标准差，50%分位数等等;
非数值类型数据，该方法会给出变量的：非空值数量、unique数量(等同于数据库中distinct方法)、最大频数变量和最大频数。
由head()方法我们可以发现数据中包含了数值变量、非数值变量，我们首先可以利用dtypes方法查看DataFrame中各列的数据类型，用select_dtypes方法将数据按数据类型进行分类。然后，利用describe方法返回的统计值对数据有个初步的了解：
df.select_dtypes(include=['O']).describe()
df.select_dtypes(include=['float64']).describe()
简单的观察上面变量每一维度统计结果，我们可以了解到大家获取代理数据的长度平均1670个字节左右。同时，也能发现字段scanossubfp，scanscan_mode等存在空值等等信息。这样我们能对数据整体上有了一个大概了解。
4、数据清洗
由于源数据通常包含一些空值甚至空列，会影响数据分析的时间和效率，在预览了数据摘要后，需要对这些无效数据进行处理。
一般来说，移除一些空值数据可以使用dropna方法，当你使用该方法后，检查时发现 dropna() 之后几乎移除了所有行的数据，一查Pandas用户手册，原来不加参数的情况下， dropna() 会移除所有包含空值的行。
如果你只想移除全部为空值的列，需要加上 axis 和 how 两个参数：
analysis_data.dropna(axis=1, how='all')
另外，也可以通过dropna的参数subset移除指定列为空的数据，和设置thresh值取移除每非None数据个数小于thresh的行。
analysis_data.dropna(subset=['proxy_host', 'srcip'])
#移除proxy_host字段或srcip字段没有值的行
analysis_data.dropna(thresh=10)
#移除所有行字段中有值属性小于10的行
5、统计分析
再对数据中的一些信息有了初步了解过后，原始数据有22个变量。从分析目的出发，我将从原始数据中挑选出局部变量进行分析。这里就要给大家介绍pandas的数据切片方法loc。
loc([startrowindex:endrowindex,[‘timestampe’, ‘proxy_host’, ‘srcip’]])是pandas重要的切片方法，逗号前面是对行进行切片;逗号后的为列切片，也就是挑选要分析的变量。
如下，我这里选出日期，host和源IP字段——
analysis_data = analysis_data.loc([:, [‘timestampe’,'proxy_host','srcip']])
首先让我们来看看蜜罐代理每日使用数据量，我们将数据按日统计，了解每日数据量PV，并将结果画出趋势图。
daily_proxy_data = analysis_data[analysis_data.mole=='proxy']
daily_proxy_visited_count = daily_proxy_data.timestamp.value_counts().sort_index()
daily_proxy_visited_count.plot()
对数据列的丢弃，除无效值和需求规定之外，一些表自身的冗余列也需要在这个环节清理，比如说DataFrame中的index号、类型描述等，通过对这些数据的丢弃，从而生成新的数据，能使数据容量得到有效的缩减，进而提高计算效率。
由上图分析可知蜜罐代理使用量在6月5号，19-22号和25号这几天呈爆炸式增长。那么这几天数据有情况，不正常，具体是神马情况，不急，后面小安带大家一起来慢慢揪出来到底是那些人(源ip) 干了什么“坏事”。
进一步分析, 数据有异常后，再让我们来看看每天去重IP数据后量及其增长量。可以按天groupby后通过nunique()方法直接算出来每日去重IP数据量。
daily_proxy_data = analysis_data[analysis_data.mole=='proxy']
daily_proxy_visited_count = daily_proxy_data.groupby(['proxy_host']).srcip.nunique()
daily_proxy_visited_count.plot()
究竟大部分人(源ip)在干神马?干神马?干神马?让我们来看看被访问次数最多host的哪些，即同一个host关联的IP个数，为了方便我们只查看前10名热门host。
先选出host和ip字段，能过groupby方法来group 每个域名(host)，再对每个域名的ip访问里unique统计。
host_associate_ip = proxy_data.loc[:, ['proxy_host', 'srcip']]
grouped_host_ip = host_associate_ip.groupby(['proxy_host']).srcip.nunique()
print(grouped_host_ip.sort_values(ascending=False).head(10))
再细细去看大家到底做了啥——查看日志数据发现原来在收集像二手车价格，工人招聘等等信息。从热门host来看，总得来说大家使用代理主要还是获取网络，qq，Google，Bing这类妇孺皆知网站的信息。
下面再让我们来看看是谁用代理IP“干事”最多，也就是看看谁的IP访问不同host的个数最多。
host_associate_ip = proxy_data.loc[:, ['proxy_host', 'srcip']]
grouped_host_ip = host_associate_ip.groupby(['srcip'_host']).proxy_host.nunique()
print(grouped_host_ip.sort_values(ascending=False).head(10))
哦，发现目标IP为123..*.155的小伙子有大量访问记录, 进而查看日志，原来他在大量收集酒店信息。好了，这样我们就大概能知道谁在干什么了，再让我们来看看他们使用proxy持续时长，谁在长时间里使用proxy。代码如下——
这里不给大家细说代码了，只给出如下伪代码。
date_ip = analysis_data.loc[:,['timestamp','srcip']]
grouped_date_ip = date_ip.groupby(['timestamp', 'srcip'])
#计算每个源ip(srcip)的访问日期
all_srcip_ration_times = ...
#算出最长连续日期天数
ration_date_cnt = count_date(all_srcip_ration_times)
好了，到此我也就初略的知道那些人做什么，谁用代理时长最长等等问题额。取出ip = 80...38的用户使用代理ip访问数据日志，发现原来这个小伙子在长时间获取搜狐images。
蜜罐在全国各地部署多个节点，再让我们来看看每个源ip扫描蜜罐节点总个数，了解IP扫描节点覆盖率。结果见如下：
# 每个IP扫描的IP扫描节点总个数
node = df[df.mole=='scan']
node = node.loc[:,['srcip','origin_details']]
grouped_node_count = node.groupby(['srcip']).count()
print grouped_node_count.sort_values(['origin_details'], ascending=False).head(10)
由上述两表初步可知，一些结论：如源ip为182...205的用户长时间对蜜罐节点进行扫描，mark危险用户等等。

Ⅷ 如何用Python做舆情时间序列可视化

Ⅸ python如何做数据分析

Python做数据分析比较好用且流行的是numpy、pandas库，有兴趣的话，可以深入了解、学习一下。

导航:首页 > 编程语言 > python判断舆情分析

python判断舆情分析

Numpy

Pandas

Matplotlib

Scikit-learn

与python判断舆情分析相关的资料