❶ python 简单模糊匹配
根据报错的信息find这个变量是float类型而不是str类型的,str才有startsWith这个方法,你想找的实际上是excel表格中的值,我觉得你需要先把find这个变量在后台打印出来,如以下代码
forfindinxx:
print"@54",find
iffind.startswith('A1'):
....
...
❷ 如何在csv文件中用Python语言求没科的评论就是分
要使用 Python 计算 CSV 文件中每个科目的平均分数,您可以使用以下代码:
此代码使用该模块从 CSV 文件中读取数据并将其解析为字典。然后使用字典来跟踪每个科目的总分和分数数。从文件中读取所有数据后,代码将计算每个主题的平均分数并打印结果。csv
您可以通过更改 CSV 文件的名称以及包含主题和分数信息的列的名称来自定义此代码。如果需要,您还可以修改代码以将结果存储在不同的数据结构中,例如列表或 Pandas 数据帧。
回答不易望请采纳
❸ python爬虫:微博评论分析
最近王和李的离婚亮嫌轿闹得沸沸扬扬,相信大伙们都已经吃了不少的瓜。本文结合李的第一篇文章发文下面的网友们的评论来看看大家到底怎么看待这件事。
数据来自该地址: https://weibo.com/5977512966/L6w2sfDXb#comment
爬取的下面的全部评论:
微博的网页属于Ajax渲染,当我们向下滑动的时候会显示的评论,地址栏的URL不变,需要找到实际的请求URL。
1、右击【检查】,找到【Network】
2、确定每页的内容URL
这里是首页部分
滑动之后显示每页内容的URL;
3、每页的URL地址
从第二页开始的URL地址多的部分是max_id,刚好这个参数的值是前一页的返回内容:
4、介绍第一页的爬取
比如我们可以获取第一个用户的相关信息:
最终我们可以看到第一页爬取的数据展示:
参考上面的逻辑可以爬取到微博下面的全部评论
导入需要的库:
查看我们爬取到数据的基本信息,我们导入前5行数据:
基本信息:查看数据的shape形状,总共是47638行,8个字段,并且不存在缺失值。
将敬肆我们爬取到的格林威治形式的时间转成熟悉的标准化时间形式:
国内的省份中北京、广东、上海、江苏都是吃瓜的大省份!
果然:女性真的很爱吃瓜🍉远超男性
通过点赞数和回复数来看看这篇微博下的火爆评论:
有位网友的评论87万+的点赞数!666
同样还是这位网友的评论,回复数也是No.1
从点赞数和回复数的整体分布者棚来看,这条评论真的是别树一帜!已经完全偏离了其他的数据:
查看原数据我们发现这条评论就是:
看来以前的很多爆料都被锤啦!
通过用户的年龄和点赞数、回复数来看,用户年龄在7、8、9、10年时的用户更为活跃;年龄偏大或者新生的微博用户的评论较少。
同时点赞数也集中在2000-5000之间的部分
从用户的评论时间点来看,当李发了第一篇文之后,瞬间引爆了评论(左侧密集部分);这条微博沉寂了4天,没有想到23号的晚上又火了
将粉丝的评论内容分词找到他们的重点:
重点关注下前50个词语:
除了两位当事人, 粉丝还比较关心他们的孩子 。毕竟孩子是无辜的,但是他们的瓜不正是孩子引起的吗?个人的看法。
总之:不管是王还是李,如果真的是渣男或者渣女,请上十字架,阿门!
Python爬虫有一个非常厉害的框架Scrapy,我联系了北京大学出版社送两书:《Python网路爬虫框架Scrapy从入门到精通》。 精选两位走心留言的小伙伴
对Python爬虫感兴趣的朋友也可以直接购买喔。
❹ 如何用python获取京东的评论数据
京东商品评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论的信息。因此我们需要先找到存放商品评论信息的文件。这里我们使用Chrome浏览器里的开发者工具进行查找。
具体方法是在商品详情页点击鼠标右键,选择检查,在弹出的开发者工具界面中选择Network,设置为禁用缓存(Disable cache)和只查看JS文件。然后刷新页面。页面加载完成后向下滚动鼠标找到商品评价部分,等商品评价信息显示出来后,在下面Network界面的左侧筛选框中输入proctPageComments,这时下面的加载记录中只有一条信息,这里包含的就是商品详情页的商品评论信息。点击这条信息,在右侧的Preview界面中可以看到其中包含了当前页面中的评论信息。(抓取价格信息输入prices)。
复制这条信息,并把URL地址放在浏览器中打开,里面包含了当前页的商品评论信息。这就是我们要抓取的URL地址。
仔细观察这条URL地址可以发现,其中proctId=10001234327是当前商品的商品ID。与商品详情页URL中的ID一致。而page=0是页码。如果我们要获取这个商品的所有评论,只需要更改page后面的数字即可。
在获得了商品评论的真实地址以及URL地址的规律后,我们开始使用python抓取这件商品的700+条评论信息。并对这些信息进行处理和分析。
开始前的准备工作
在开始抓取之前先要导入各种库文件,这里我们分别介绍下需要导入的每个库文件的名称以及在数据抓取和分析中的作用。requests用于进行页面抓取,time用于设置抓取过程中的Sleep时间,random用于生产随机数,这里的作用是将抓取页面的顺序打乱,re用于在抓取后的页面代码中提取需要的信息,numpy用于常规的指标计算,pandas用于进行数据汇总和透视分析,matplotlib用于绘制各站图表,jieba用于对评论内容进行分词和关键词提取。
#导入requests库(请求和页面抓取)
import requests
#导入time库(设置抓取Sleep时间)
import time
#导入random库(生成乱序随机数)
import random
#导入正则库(从页面代码中提取信息)
import re
#导入数值计算库(常规计算)
import numpy as np
#导入科学计算库(拼表及各种分析汇总)
import pandas as pd
#导入绘制图表库(数据可视化)
import matplotlib.pyplot as plt
#导入结巴分词库(分词)
import jieba as jb
#导入结巴分词(关键词提取)
import jieba.analyse
将爬虫伪装成浏览器
导入完库文件后,还不能直接进行抓取,因为这样很容易被封。我们还需要对爬虫进行伪装,是爬虫看起来更像是来自浏览器的访问。这里主要的两个工作是设置请求中的头文件信息以及设置Cookie的内容。
头文件信息很容易找到,在Chrome的开发者工具中选择Network,刷新页面后选择Headers就可以看到本次访问的头文件信息,里面包含了一些浏览器的技术参数和引荐来源信息。将这些信息直接添加到代码中就可以,这里我们将头部信息保存在headers中。
#设置请求中头文件的信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Accept':'text/html;q=0.9,*/*;q=0.8',
'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Connection':'close',
'Referer':''
}
在查看头文件信息的旁边还有一个Cookies标签,点击进去就是本次访问的Cookies信息。这里的Cookies信息与前面头文件中的Cookie信息一致,不过这里更加清晰。把Request Cookies信息复制到代码中即可,这里我们将Request Cookies信息保存在Cookie中。
#设置Cookie的内容
cookie={'TrackID':'1_VWwvLYiy1FUr7wSr6HHmHhadG8d1-Qv-TVaw8JwcFG4EksqyLyx1SO7O06_Y_XUCyQMksp3RVb2ezA',
'__jda':'122270672.1507607632.1423495705.1479785414.1479794553.92',
'__jdb':'122270672.1.1507607632|92.1479794553',
'__jdc':'122270672',
'__j':'1507607632',
'__jdv':'122270672|direct|-|none|-|1478747025001',
'areaId':'1',
'cn':'0',
'ipLoc-djd':'1-72-2799-0',
'ipLocation':'%u5317%u4EAC',
'mx':'0_X',
'rkv':'V0800',
'user-key':'216123d5-4ed3-47b0-9289-12345',
'xtest':'4657.553..'}
抓取商品评论信息
设置完请求的头文件和Cookie信息后,我们开始抓取京东商品评论的信息。前面分析URL的时候说过,URL中包含两个重要的信息,一个是商品ID,另一个是页码。这里我们只抓取一个商品的评论信息,因此商品ID不需要更改。但这个商品的评论有700+条,也就是有近80页需要抓取,因此页码不是一个固定值,需要在0-80之间变化。这里我们将URL分成两部分,通过随机生成页码然后拼接URL的方式进行抓取。
#设置URL的第一部分
url1=''
#设置URL的第二部分
url2='&pageSize=10&callback=fetchJSON_comment98vv41127'
#乱序输出0-80的唯一随机数
ran_num=random.sample(range(80), 80)
为了使抓取过程看起来更加随机,我们没有从第1页一直抓取到第80页。而是使用random生成0-80的唯一随机数,也就是要抓取的页码编号。然后再将页码编号与两部分URL进行拼接。这里我们只知道商品有700+的评论,但并不知道具体数字,所以抓取范围定位从0-80页。
下面是具体的抓取过程,使用for循环每次从0-80的随机数中找一个生成页码编号,与两部分的URL进行拼接。生成要抓取的URL地址并与前面设置好的头文件信息和Cookie信息一起发送请求获取页面信息。将获取到的页面信息进行汇总。每次请求间休息5秒针,避免过于频繁的请求导致返回空值。
#拼接URL并乱序循环抓取页面
for i in ran_num:
a = ran_num[0]
if i == a:
i=str(i)
url=(url1+i+url2)
r=requests.get(url=url,headers=headers,cookies=cookie)
html=r.content
else:
i=str(i)
url=(url1+i+url2)
r=requests.get(url=url,headers=headers,cookies=cookie)
html2=r.content
html = html + html2
time.sleep(5)
print("当前抓取页面:",url,"状态:",r)
在抓取的过程中输入每一步抓取的页面URL以及状态。通过下面的截图可以看到,在page参数后面的页码是随机生成的并不连续。
抓取完80个页面后,我们还需要对页面进行编码。完成编码后就可以看到其中所包含的中文评论信息了。后面大部分苦逼的工作就是要对这些评论信息进行不断提取和反复的清洗。
#对抓取的页面进行编码
html=str(html, encoding = "GBK")
这里建议将抓取完的数据存储在本地,后续工作可以直接从本地打开文件进行清洗和分析工作。避免每次都要重新抓取数据。这里我们将数据保存在桌面的page.txt文件中。
#将编码后的页面输出为txt文本存储
file = open("c:\\Users \\Desktop\\page.txt", "w")
file.write(html)
file.close()
读取文件也比较简单,直接open加read函数就可以完成了。
#读取存储的txt文本文件
html = open('c:\\Users\\ Desktop\\page.txt', 'r').read()
提取信息并进行数据清洗
京东的商品评论中包含了很多有用的信息,我们需要将这些信息从页面代码中提取出来,整理成数据表以便进行后续的分析工作。这里应该就是整个过程中最苦逼的数据提取和清洗工作了。我们使用正则对每个字段进行提取。对于特殊的字段在通过替换等方式进行提取和清洗。
下面是提取的第一个字段userClient,也就是用户发布评论时所使用的设备类型,这类的字段提取还比较简单,一行代码搞定。查看一下提取出来的字段还比较干净。使用同样的方法我们分别提取了以下这些字段的内容。
#使用正则提取userClient字段信息
userClient=re.findall(r',"usefulVoteCount".*?,"userClientShow":(.*?),',html)
#使用正则提取userLevel字段信息
userLevel=re.findall(r'"referenceImage".*?,"userLevelName":(.*?),',html)
#使用正则提取proctColor字段信息
proctColor=re.findall(r'"creationTime".*?,"proctColor":(.*?),',html)
#使用正则提取recommend字段信息
recommend=re.findall(r'"creationTime".*?,"recommend":(.*?),',html)
#使用正则提取nickname字段信息
nickname=re.findall(r'"creationTime".*?,"nickname":(.*?),',html)
#使用正则提取userProvince字段信息
userProvince=re.findall(r'"referenceImage".*?,"userProvince":(.*?),',html)
#使用正则提取usefulVoteCount字段信息
usefulVoteCount=re.findall(r'"referenceImage".*?,"usefulVoteCount":(.*?),',html)
#使用正则提取days字段信息
days=re.findall(r'"usefulVoteCount".*?,"days":(.*?)}',html)
#使用正则提取score字段信息
score=re.findall(r'"referenceImage".*?,"score":(.*?),',html)</pre>
还有一些字段比较负责,无法通过正则一次提取出来,比如isMobile字段,有些值的后面还有大括号。这就需要进一步的提取和清洗工作。
#使用正则提取isMobile字段信息
isMobile=re.findall(r'"usefulVoteCount".*?,"isMobile":(.*?),',html)
使用for循环配合替换功能将字段中所有的}替换为空。替换完成后字段看起来干净多了。
#替换掉最后的}
mobile=[]
for m in isMobile:
n=m.replace('}','')
mobile.append(n)
proctSize字段中包含了胸围和杯罩两类信息,为了获得独立的杯罩信息需要进行二次提取,将杯罩信息单独保存出来。
#使用正则提取proctSize字段信息
proctSize=re.findall(r'"creationTime".*?,"proctSize":(.*?),',html)
使用for循环将proctSize中的第三个字符杯罩信息提取出来,并保持在cup字段中。
#提取杯罩信息
cup=[]
for s in proctSize:
s1=s[3]
cup.append(s1)
创建评论的日期信息仅依靠正则提取出来的信息还是比较乱,无法直接使用。因此也需要进行二次提取。下面是使用正则提取出的结果。
#使用正则提取时间字段信息
creationTime1=re.findall(r'"creationTime":(.*?),"referenceName',html)
日期和时间信息处于前20个字符,在二次提取中根据这个规律直接提起每个条目的前20个字符即可。将日期和时间单独保存为creationTime。
#提取日期和时间
creationTime=[]
for d in creationTime1:
date=d[1:20]
creationTime.append(date)
在上一步日期和时间的基础上,我们再进一步提取出单独的小时信息,方法与前面类似,提取日期时间中的第11和12个字符,就是小时的信息。提取完保存在hour字段以便后续的分析和汇总工作。
#提取小时信息
hour=[]
for h in creationTime:
date=h[10:13]
hour.append(date)
最后要提取的是评论内容信息,页面代码中包含图片的评论信息是重复的,因此在使用正则提取完后还需要对评论信息进行去重。
#使用正则提取评论信息
content=re.findall(r'"guid".*?,"content":(.*?),',html)
使用if进行判断,排除掉所有包含图片的评论信息,已达到评论去重的目的。
#对提取的评论信息进行去重
content_1=[]
for i in content:
if not "img" in i:
content_1.append(i)
完成所有字段信息的提取和清洗后,将这些字段组合在一起生成京东商品评论数据汇总表。下面是创建数据表的代码。数据表生成后还不能马上使用,需要对字段进行格式设置,例如时间和日期字段和一些包含数值的字段。具体的字段和格式设置依据后续的分析过程和目的。这里我们将creationTime设置为时间格式,并设置为数据表的索引列。将days字段设置为数值格式。
#将前面提取的各字段信息汇总为table数据表,以便后面分析
table=pd.DataFrame({'creationTime':creationTime,'hour':hour,'nickname':nickname,'proctColor':proctColor,'proctSize':proctSize,'cup':cup,'recommend':recommend,'mobile':mobile,'userClient':userClient,'userLevel':userLevel,'userProvince':userProvince,'usefulVoteCount':usefulVoteCount,'content_1':content_1,'days':days,'score':score})
#将creationTime字段更改为时间格式
table['creationTime']=pd.to_datetime(table['creationTime'])
#设置creationTime字段为索引列
table = table.set_index('creationTime')
#设置days字段为数值格式
table['days']=table['days'].astype(np.int64)
#查看整理完的数据表
table.head()
这里建议再次保存清洗和预处理完的数据表。我们这里将数据表保存为csv格式。到了这一步可以选择在Excel中完成后续的数据分析和可视化过程,也可以继续在python中完成。我们这里选择继续在python中完成后续的数据分析和可视化工作。
#保存table数据表
table.to_csv('jd_table.csv')
数据分析及可视化
分月评论数据变化趋势
首先查看京东商品评论的时间变化趋势情况,大部分用户在购买商品后会在10天以内进行评论,因此我们可以近似的认为在一个月的时间维度中评论时间的变化趋势代表了用户购买商品的变化趋势。
❺ python批量爬取京东手机评论信息及星级
爬取京东评论信息:评论信息是动态加载的,所以在商品详情页不能直接爬取评论。
下面以一款手机为例,详细介绍python批量爬取京东评论。
找到桥手评论区域
按F12进入浏览器的调试窗户(我用的是谷尘镇歌浏览器)
点击network,选择all,接下来点击评论第二页,选择js,可以找到加载评论的链接派消粗(正常应该选择all,一点点找,我之前已经找到过链接,直接在js处找了),评论的链接通常含有comment单词,也可以在调试器中搜索找到。
❻ Python比赛评分计算代码编写,题目如图,不会麻烦不要答,会停止推送!
n=int(input('请输入总共几名评委:'))
li=[]
foriinrange(n):
li.append(float(input('请输入第%d名评委评分:'%(i+1))))
print('该歌手最终成绩为:'+str((sum(li)-max(li)-min(li))/(n-2)))
❼ python对淘宝评论进行数据分析需要什么库
1、python代码导入需要的第三方库。
2、生成链接列表,获取评论数据的函数。
3、将爬下来的数据写入到txt文件中。
❽ 抓取了《大秦赋》所有数据,我发现了这些秘密
前言
最近大火的电视剧《大秦赋》,给朋友圈的小伙伴都拉回到那个风云激荡的春秋战国时期,大家都在热情的讨论着大秦一统,秦始皇嬴政、商人吕不韦的那些尔虞我诈、恩怨情仇。那到底小伙伴们都在讨论什么,对 历史 人物有什么看法,对《大秦赋》这部电视剧剧情和角色有什么点评?于是我用Python爬取了《大秦赋》下所有的评论数据,进行了一波分析。
1、 数据抓取
巧妇难为无米之炊,我们首先要做的第一步是想办法抓取到评论数据。这里我们抓取的是豆瓣网上关于《大秦赋》的所有评论数据,选择豆瓣网原因很简单,首先是数据比较齐全,其次反爬难度并不大。
其次来说下技术栈,用的是Scrapy+JSON的方式实现的。Scrapy框架有脚手架功能,帮我们实现了一个爬虫大部分的功能,我们只要专心于数据解析和存储即可,也是我做爬虫的首选框架。
第一步是通过`Scrapy`命令创建一个项目和爬虫:
在开始编写爬虫之前,先来看下请求的url,这里我们找到《大秦赋》的评论链接是:
https://movie.douban.com/subject/26413293/comments?start=60&limit=20&status=P&sort=time
,其中start是获取评论的起始位置,limit代表获取多少条评论数据。
在获取完一页数据后,只要再获取下一页的url,然后旦侍或重复发送请求即可。
了解以上两点后,就可以开始写代码了。当然前提是要对数据的提取比较熟悉,数据提取常用的有BeautifulSoup/Xpath/正则等方式,这里我们用性能和可阅读性都比较好的提取规则——xpath来进行解析。爬虫部分代码如下:
关于提取规则,这里不再赘述,感兴趣的小伙伴,后台回复:"
大秦赋 ",可以获取完整代码。
爬取规则写好后,会构建一个item对象,这个item对象在yield过去后会发送给pipeline,然后我们在pipeline中把他保存到起来即可。相关代码如下:
这样,我们通过在命令行输入:scrapy crawl qin,即可运行我们的代码了。
2、数据分析:
抓取了评论数据后,我们开始来进行一些分析。
首先说一下技术栈,这里我们用的是Anaconda中的Jupyter Notebook来做,然后用到了Pandas+Seaborn做数据处理和可视化。
首先将谈友之前保存的JSON格式数据,处理成DataFrame对象。相关代码如下:
数据处理好以后,就可以进行分析了。这里我们从几个维度来分析,第一个是评论时间,第二个是评分,第三个是评论内容(您也可以自己再多从几个维度来分析)。
2.1. 时间分析:
时间我们分成两点来做,分别是发布日期、发布时间。分析发布日期我们能知道评论的走势,分析发布时间我们可以知道《大秦赋》在什么时间点播放量是最高的。
先来看看发布时间,《大秦赋》是在12月1日首播,到目前为止已经半个月了。我们来看看这半个月时间的播放情况。以下是分析代码:
可以看到评论数量在12月4日之前都是一直处于上升趋势,在12月4日达到顶峰。前面4天属于观众期待期,所以评论量会越来越多,但是在12月4日后出现断崖式下降,说明本剧可能不是很受大家喜爱。
再来看下评论的时间,看看大家一般在几点刷剧。这里我从0点到24点,2个小时为一个时间段统计评论数量。相关代码如下:
可以看到在晚上8点到10点是评论量最多的,也正是电视剧播出时间段。紧接着是22-24,以及0-2点,有一部分晚上很晚才下班的小伙伴,可能会在这段时间追剧。然后又是上午10-12,以及14,16点,这段时间课时工作的最佳时间呀,怎么会用来追剧呢。说明有相当一部分小伙伴,平时工作在摸鱼呀,哈哈。
2.2. 评分分析:
想要知道一部剧好不好模伍,最直接的就是看观众给的评分,通过以下代码分析:
其中1,2分的最多。说明《大秦赋》真的没有被观众所认可呀。
2.3. 分析人物评分
剧中演员的演技,以及故事情节,会对剧的评分产生较大影响,那么《大秦赋》中各个角色的演技,以及这个角色所产生的故事情节如何,我们接下来做一个简单分析。
这里我们的算法比较简单(不是很严谨,但是也能说明问题)。举个例子,观众给了1星,然后这个评论内容中出现了几次”秦始皇“,说明观众对”秦始皇“这个角色是比较反感的。这里我们对内容进行分词,然后提取”秦始皇“,”吕不韦“,”赵姬“,”嫪毐“,”李斯“等人进行分析。代码如下:
只要你爬虫玩得溜,抓到更多的数据,还有更多有趣好玩的细节等着你来 探索 !
福利
入门Python的最强三件套《ThinkPython》、《简明Python教程》、《Python进阶》的PDF电子版已打包提供给大家,“ P3 ”即可获取。
❾ 计算机二级python评分标准
计算机二级python评分标准:第1-10题是公共基础知识,所有参加二年级考试的学生都一样,主要依靠平时的积累。问题11-40与python相关,包括python的特点、保留字、变量命名、字符晌物串语法、输入输出语法格式、数字类型、者谨羡基本语法、分支结构、异常处理、内置函数、切片操作、交换文件操作、第三方库、字典、集合、列表等。
考生不受年龄、职业、学历等背景的限制,任何人均可根据自己学习和使用计算机的实际情况报考。每次考试报名的具体时间由各省(自治区、直辖市)级承办机构规定。考生按照有关规定到就近考点报名。