❶ python 簡單模糊匹配
根據報錯的信息find這個變數是float類型而不是str類型的,str才有startsWith這個方法,你想找的實際上是excel表格中的值,我覺得你需要先把find這個變數在後台列印出來,如以下代碼
forfindinxx:
print"@54",find
iffind.startswith('A1'):
....
...
❷ 如何在csv文件中用Python語言求沒科的評論就是分
要使用 Python 計算 CSV 文件中每個科目的平均分數,您可以使用以下代碼:
此代碼使用該模塊從 CSV 文件中讀取數據並將其解析為字典。然後使用字典來跟蹤每個科目的總分和分數數。從文件中讀取所有數據後,代碼將計算每個主題的平均分數並列印結果。csv
您可以通過更改 CSV 文件的名稱以及包含主題和分數信息的列的名稱來自定義此代碼。如果需要,您還可以修改代碼以將結果存儲在不同的數據結構中,例如列表或 Pandas 數據幀。
回答不易望請採納
❸ python爬蟲:微博評論分析
最近王和李的離婚亮嫌轎鬧得沸沸揚揚,相信大夥們都已經吃了不少的瓜。本文結合李的第一篇文章發文下面的網友們的評論來看看大家到底怎麼看待這件事。
數據來自該地址: https://weibo.com/5977512966/L6w2sfDXb#comment
爬取的下面的全部評論:
微博的網頁屬於Ajax渲染,當我們向下滑動的時候會顯示的評論,地址欄的URL不變,需要找到實際的請求URL。
1、右擊【檢查】,找到【Network】
2、確定每頁的內容URL
這里是首頁部分
滑動之後顯示每頁內容的URL;
3、每頁的URL地址
從第二頁開始的URL地址多的部分是max_id,剛好這個參數的值是前一頁的返回內容:
4、介紹第一頁的爬取
比如我們可以獲取第一個用戶的相關信息:
最終我們可以看到第一頁爬取的數據展示:
參考上面的邏輯可以爬取到微博下面的全部評論
導入需要的庫:
查看我們爬取到數據的基本信息,我們導入前5行數據:
基本信息:查看數據的shape形狀,總共是47638行,8個欄位,並且不存在缺失值。
將敬肆我們爬取到的格林威治形式的時間轉成熟悉的標准化時間形式:
國內的省份中北京、廣東、上海、江蘇都是吃瓜的大省份!
果然:女性真的很愛吃瓜🍉遠超男性
通過點贊數和回復數來看看這篇微博下的火爆評論:
有位網友的評論87萬+的點贊數!666
同樣還是這位網友的評論,回復數也是No.1
從點贊數和回復數的整體分布者棚來看,這條評論真的是別樹一幟!已經完全偏離了其他的數據:
查看原數據我們發現這條評論就是:
看來以前的很多爆料都被錘啦!
通過用戶的年齡和點贊數、回復數來看,用戶年齡在7、8、9、10年時的用戶更為活躍;年齡偏大或者新生的微博用戶的評論較少。
同時點贊數也集中在2000-5000之間的部分
從用戶的評論時間點來看,當李發了第一篇文之後,瞬間引爆了評論(左側密集部分);這條微博沉寂了4天,沒有想到23號的晚上又火了
將粉絲的評論內容分詞找到他們的重點:
重點關注下前50個詞語:
除了兩位當事人, 粉絲還比較關心他們的孩子 。畢竟孩子是無辜的,但是他們的瓜不正是孩子引起的嗎?個人的看法。
總之:不管是王還是李,如果真的是渣男或者渣女,請上十字架,阿門!
Python爬蟲有一個非常厲害的框架Scrapy,我聯系了北京大學出版社送兩書:《Python網路爬蟲框架Scrapy從入門到精通》。 精選兩位走心留言的小夥伴
對Python爬蟲感興趣的朋友也可以直接購買喔。
❹ 如何用python獲取京東的評論數據
京東商品評論信息是由JS動態載入的,所以直接抓取商品詳情頁的URL並不能獲得商品評論的信息。因此我們需要先找到存放商品評論信息的文件。這里我們使用Chrome瀏覽器里的開發者工具進行查找。
具體方法是在商品詳情頁點擊滑鼠右鍵,選擇檢查,在彈出的開發者工具界面中選擇Network,設置為禁用緩存(Disable cache)和只查看JS文件。然後刷新頁面。頁面載入完成後向下滾動滑鼠找到商品評價部分,等商品評價信息顯示出來後,在下面Network界面的左側篩選框中輸入proctPageComments,這時下面的載入記錄中只有一條信息,這里包含的就是商品詳情頁的商品評論信息。點擊這條信息,在右側的Preview界面中可以看到其中包含了當前頁面中的評論信息。(抓取價格信息輸入prices)。
復制這條信息,並把URL地址放在瀏覽器中打開,裡麵包含了當前頁的商品評論信息。這就是我們要抓取的URL地址。
仔細觀察這條URL地址可以發現,其中proctId=10001234327是當前商品的商品ID。與商品詳情頁URL中的ID一致。而page=0是頁碼。如果我們要獲取這個商品的所有評論,只需要更改page後面的數字即可。
在獲得了商品評論的真實地址以及URL地址的規律後,我們開始使用python抓取這件商品的700+條評論信息。並對這些信息進行處理和分析。
開始前的准備工作
在開始抓取之前先要導入各種庫文件,這里我們分別介紹下需要導入的每個庫文件的名稱以及在數據抓取和分析中的作用。requests用於進行頁面抓取,time用於設置抓取過程中的Sleep時間,random用於生產隨機數,這里的作用是將抓取頁面的順序打亂,re用於在抓取後的頁面代碼中提取需要的信息,numpy用於常規的指標計算,pandas用於進行數據匯總和透視分析,matplotlib用於繪制各站圖表,jieba用於對評論內容進行分詞和關鍵詞提取。
#導入requests庫(請求和頁面抓取)
import requests
#導入time庫(設置抓取Sleep時間)
import time
#導入random庫(生成亂序隨機數)
import random
#導入正則庫(從頁面代碼中提取信息)
import re
#導入數值計算庫(常規計算)
import numpy as np
#導入科學計算庫(拼表及各種分析匯總)
import pandas as pd
#導入繪制圖表庫(數據可視化)
import matplotlib.pyplot as plt
#導入結巴分詞庫(分詞)
import jieba as jb
#導入結巴分詞(關鍵詞提取)
import jieba.analyse
將爬蟲偽裝成瀏覽器
導入完庫文件後,還不能直接進行抓取,因為這樣很容易被封。我們還需要對爬蟲進行偽裝,是爬蟲看起來更像是來自瀏覽器的訪問。這里主要的兩個工作是設置請求中的頭文件信息以及設置Cookie的內容。
頭文件信息很容易找到,在Chrome的開發者工具中選擇Network,刷新頁面後選擇Headers就可以看到本次訪問的頭文件信息,裡麵包含了一些瀏覽器的技術參數和引薦來源信息。將這些信息直接添加到代碼中就可以,這里我們將頭部信息保存在headers中。
#設置請求中頭文件的信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Accept':'text/html;q=0.9,*/*;q=0.8',
'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Connection':'close',
'Referer':''
}
在查看頭文件信息的旁邊還有一個Cookies標簽,點擊進去就是本次訪問的Cookies信息。這里的Cookies信息與前面頭文件中的Cookie信息一致,不過這里更加清晰。把Request Cookies信息復制到代碼中即可,這里我們將Request Cookies信息保存在Cookie中。
#設置Cookie的內容
cookie={'TrackID':'1_VWwvLYiy1FUr7wSr6HHmHhadG8d1-Qv-TVaw8JwcFG4EksqyLyx1SO7O06_Y_XUCyQMksp3RVb2ezA',
'__jda':'122270672.1507607632.1423495705.1479785414.1479794553.92',
'__jdb':'122270672.1.1507607632|92.1479794553',
'__jdc':'122270672',
'__j':'1507607632',
'__jdv':'122270672|direct|-|none|-|1478747025001',
'areaId':'1',
'cn':'0',
'ipLoc-djd':'1-72-2799-0',
'ipLocation':'%u5317%u4EAC',
'mx':'0_X',
'rkv':'V0800',
'user-key':'216123d5-4ed3-47b0-9289-12345',
'xtest':'4657.553..'}
抓取商品評論信息
設置完請求的頭文件和Cookie信息後,我們開始抓取京東商品評論的信息。前面分析URL的時候說過,URL中包含兩個重要的信息,一個是商品ID,另一個是頁碼。這里我們只抓取一個商品的評論信息,因此商品ID不需要更改。但這個商品的評論有700+條,也就是有近80頁需要抓取,因此頁碼不是一個固定值,需要在0-80之間變化。這里我們將URL分成兩部分,通過隨機生成頁碼然後拼接URL的方式進行抓取。
#設置URL的第一部分
url1=''
#設置URL的第二部分
url2='&pageSize=10&callback=fetchJSON_comment98vv41127'
#亂序輸出0-80的唯一隨機數
ran_num=random.sample(range(80), 80)
為了使抓取過程看起來更加隨機,我們沒有從第1頁一直抓取到第80頁。而是使用random生成0-80的唯一隨機數,也就是要抓取的頁碼編號。然後再將頁碼編號與兩部分URL進行拼接。這里我們只知道商品有700+的評論,但並不知道具體數字,所以抓取范圍定位從0-80頁。
下面是具體的抓取過程,使用for循環每次從0-80的隨機數中找一個生成頁碼編號,與兩部分的URL進行拼接。生成要抓取的URL地址並與前面設置好的頭文件信息和Cookie信息一起發送請求獲取頁面信息。將獲取到的頁面信息進行匯總。每次請求間休息5秒針,避免過於頻繁的請求導致返回空值。
#拼接URL並亂序循環抓取頁面
for i in ran_num:
a = ran_num[0]
if i == a:
i=str(i)
url=(url1+i+url2)
r=requests.get(url=url,headers=headers,cookies=cookie)
html=r.content
else:
i=str(i)
url=(url1+i+url2)
r=requests.get(url=url,headers=headers,cookies=cookie)
html2=r.content
html = html + html2
time.sleep(5)
print("當前抓取頁面:",url,"狀態:",r)
在抓取的過程中輸入每一步抓取的頁面URL以及狀態。通過下面的截圖可以看到,在page參數後面的頁碼是隨機生成的並不連續。
抓取完80個頁面後,我們還需要對頁面進行編碼。完成編碼後就可以看到其中所包含的中文評論信息了。後面大部分苦逼的工作就是要對這些評論信息進行不斷提取和反復的清洗。
#對抓取的頁面進行編碼
html=str(html, encoding = "GBK")
這里建議將抓取完的數據存儲在本地,後續工作可以直接從本地打開文件進行清洗和分析工作。避免每次都要重新抓取數據。這里我們將數據保存在桌面的page.txt文件中。
#將編碼後的頁面輸出為txt文本存儲
file = open("c:\\Users \\Desktop\\page.txt", "w")
file.write(html)
file.close()
讀取文件也比較簡單,直接open加read函數就可以完成了。
#讀取存儲的txt文本文件
html = open('c:\\Users\\ Desktop\\page.txt', 'r').read()
提取信息並進行數據清洗
京東的商品評論中包含了很多有用的信息,我們需要將這些信息從頁面代碼中提取出來,整理成數據表以便進行後續的分析工作。這里應該就是整個過程中最苦逼的數據提取和清洗工作了。我們使用正則對每個欄位進行提取。對於特殊的欄位在通過替換等方式進行提取和清洗。
下面是提取的第一個欄位userClient,也就是用戶發布評論時所使用的設備類型,這類的欄位提取還比較簡單,一行代碼搞定。查看一下提取出來的欄位還比較干凈。使用同樣的方法我們分別提取了以下這些欄位的內容。
#使用正則提取userClient欄位信息
userClient=re.findall(r',"usefulVoteCount".*?,"userClientShow":(.*?),',html)
#使用正則提取userLevel欄位信息
userLevel=re.findall(r'"referenceImage".*?,"userLevelName":(.*?),',html)
#使用正則提取proctColor欄位信息
proctColor=re.findall(r'"creationTime".*?,"proctColor":(.*?),',html)
#使用正則提取recommend欄位信息
recommend=re.findall(r'"creationTime".*?,"recommend":(.*?),',html)
#使用正則提取nickname欄位信息
nickname=re.findall(r'"creationTime".*?,"nickname":(.*?),',html)
#使用正則提取userProvince欄位信息
userProvince=re.findall(r'"referenceImage".*?,"userProvince":(.*?),',html)
#使用正則提取usefulVoteCount欄位信息
usefulVoteCount=re.findall(r'"referenceImage".*?,"usefulVoteCount":(.*?),',html)
#使用正則提取days欄位信息
days=re.findall(r'"usefulVoteCount".*?,"days":(.*?)}',html)
#使用正則提取score欄位信息
score=re.findall(r'"referenceImage".*?,"score":(.*?),',html)</pre>
還有一些欄位比較負責,無法通過正則一次提取出來,比如isMobile欄位,有些值的後面還有大括弧。這就需要進一步的提取和清洗工作。
#使用正則提取isMobile欄位信息
isMobile=re.findall(r'"usefulVoteCount".*?,"isMobile":(.*?),',html)
使用for循環配合替換功能將欄位中所有的}替換為空。替換完成後欄位看起來干凈多了。
#替換掉最後的}
mobile=[]
for m in isMobile:
n=m.replace('}','')
mobile.append(n)
proctSize欄位中包含了胸圍和杯罩兩類信息,為了獲得獨立的杯罩信息需要進行二次提取,將杯罩信息單獨保存出來。
#使用正則提取proctSize欄位信息
proctSize=re.findall(r'"creationTime".*?,"proctSize":(.*?),',html)
使用for循環將proctSize中的第三個字元杯罩信息提取出來,並保持在cup欄位中。
#提取杯罩信息
cup=[]
for s in proctSize:
s1=s[3]
cup.append(s1)
創建評論的日期信息僅依靠正則提取出來的信息還是比較亂,無法直接使用。因此也需要進行二次提取。下面是使用正則提取出的結果。
#使用正則提取時間欄位信息
creationTime1=re.findall(r'"creationTime":(.*?),"referenceName',html)
日期和時間信息處於前20個字元,在二次提取中根據這個規律直接提起每個條目的前20個字元即可。將日期和時間單獨保存為creationTime。
#提取日期和時間
creationTime=[]
for d in creationTime1:
date=d[1:20]
creationTime.append(date)
在上一步日期和時間的基礎上,我們再進一步提取出單獨的小時信息,方法與前面類似,提取日期時間中的第11和12個字元,就是小時的信息。提取完保存在hour欄位以便後續的分析和匯總工作。
#提取小時信息
hour=[]
for h in creationTime:
date=h[10:13]
hour.append(date)
最後要提取的是評論內容信息,頁面代碼中包含圖片的評論信息是重復的,因此在使用正則提取完後還需要對評論信息進行去重。
#使用正則提取評論信息
content=re.findall(r'"guid".*?,"content":(.*?),',html)
使用if進行判斷,排除掉所有包含圖片的評論信息,已達到評論去重的目的。
#對提取的評論信息進行去重
content_1=[]
for i in content:
if not "img" in i:
content_1.append(i)
完成所有欄位信息的提取和清洗後,將這些欄位組合在一起生成京東商品評論數據匯總表。下面是創建數據表的代碼。數據表生成後還不能馬上使用,需要對欄位進行格式設置,例如時間和日期欄位和一些包含數值的欄位。具體的欄位和格式設置依據後續的分析過程和目的。這里我們將creationTime設置為時間格式,並設置為數據表的索引列。將days欄位設置為數值格式。
#將前面提取的各欄位信息匯總為table數據表,以便後面分析
table=pd.DataFrame({'creationTime':creationTime,'hour':hour,'nickname':nickname,'proctColor':proctColor,'proctSize':proctSize,'cup':cup,'recommend':recommend,'mobile':mobile,'userClient':userClient,'userLevel':userLevel,'userProvince':userProvince,'usefulVoteCount':usefulVoteCount,'content_1':content_1,'days':days,'score':score})
#將creationTime欄位更改為時間格式
table['creationTime']=pd.to_datetime(table['creationTime'])
#設置creationTime欄位為索引列
table = table.set_index('creationTime')
#設置days欄位為數值格式
table['days']=table['days'].astype(np.int64)
#查看整理完的數據表
table.head()
這里建議再次保存清洗和預處理完的數據表。我們這里將數據表保存為csv格式。到了這一步可以選擇在Excel中完成後續的數據分析和可視化過程,也可以繼續在python中完成。我們這里選擇繼續在python中完成後續的數據分析和可視化工作。
#保存table數據表
table.to_csv('jd_table.csv')
數據分析及可視化
分月評論數據變化趨勢
首先查看京東商品評論的時間變化趨勢情況,大部分用戶在購買商品後會在10天以內進行評論,因此我們可以近似的認為在一個月的時間維度中評論時間的變化趨勢代表了用戶購買商品的變化趨勢。
❺ python批量爬取京東手機評論信息及星級
爬取京東評論信息:評論信息是動態載入的,所以在商品詳情頁不能直接爬取評論。
下面以一款手機為例,詳細介紹python批量爬取京東評論。
找到橋手評論區域
按F12進入瀏覽器的調試窗戶(我用的是谷塵鎮歌瀏覽器)
點擊network,選擇all,接下來點擊評論第二頁,選擇js,可以找到載入評論的鏈接派消粗(正常應該選擇all,一點點找,我之前已經找到過鏈接,直接在js處找了),評論的鏈接通常含有comment單詞,也可以在調試器中搜索找到。
❻ Python比賽評分計算代碼編寫,題目如圖,不會麻煩不要答,會停止推送!
n=int(input('請輸入總共幾名評委:'))
li=[]
foriinrange(n):
li.append(float(input('請輸入第%d名評委評分:'%(i+1))))
print('該歌手最終成績為:'+str((sum(li)-max(li)-min(li))/(n-2)))
❼ python對淘寶評論進行數據分析需要什麼庫
1、python代碼導入需要的第三方庫。
2、生成鏈接列表,獲取評論數據的函數。
3、將爬下來的數據寫入到txt文件中。
❽ 抓取了《大秦賦》所有數據,我發現了這些秘密
前言
最近大火的電視劇《大秦賦》,給朋友圈的小夥伴都拉回到那個風雲激盪的春秋戰國時期,大家都在熱情的討論著大秦一統,秦始皇嬴政、商人呂不韋的那些爾虞我詐、恩怨情仇。那到底小夥伴們都在討論什麼,對 歷史 人物有什麼看法,對《大秦賦》這部電視劇劇情和角色有什麼點評?於是我用Python爬取了《大秦賦》下所有的評論數據,進行了一波分析。
1、 數據抓取
巧婦難為無米之炊,我們首先要做的第一步是想辦法抓取到評論數據。這里我們抓取的是豆瓣網上關於《大秦賦》的所有評論數據,選擇豆瓣網原因很簡單,首先是數據比較齊全,其次反爬難度並不大。
其次來說下技術棧,用的是Scrapy+JSON的方式實現的。Scrapy框架有腳手架功能,幫我們實現了一個爬蟲大部分的功能,我們只要專心於數據解析和存儲即可,也是我做爬蟲的首選框架。
第一步是通過`Scrapy`命令創建一個項目和爬蟲:
在開始編寫爬蟲之前,先來看下請求的url,這里我們找到《大秦賦》的評論鏈接是:
https://movie.douban.com/subject/26413293/comments?start=60&limit=20&status=P&sort=time
,其中start是獲取評論的起始位置,limit代表獲取多少條評論數據。
在獲取完一頁數據後,只要再獲取下一頁的url,然後旦侍或重復發送請求即可。
了解以上兩點後,就可以開始寫代碼了。當然前提是要對數據的提取比較熟悉,數據提取常用的有BeautifulSoup/Xpath/正則等方式,這里我們用性能和可閱讀性都比較好的提取規則——xpath來進行解析。爬蟲部分代碼如下:
關於提取規則,這里不再贅述,感興趣的小夥伴,後台回復:"
大秦賦 ",可以獲取完整代碼。
爬取規則寫好後,會構建一個item對象,這個item對象在yield過去後會發送給pipeline,然後我們在pipeline中把他保存到起來即可。相關代碼如下:
這樣,我們通過在命令行輸入:scrapy crawl qin,即可運行我們的代碼了。
2、數據分析:
抓取了評論數據後,我們開始來進行一些分析。
首先說一下技術棧,這里我們用的是Anaconda中的Jupyter Notebook來做,然後用到了Pandas+Seaborn做數據處理和可視化。
首先將談友之前保存的JSON格式數據,處理成DataFrame對象。相關代碼如下:
數據處理好以後,就可以進行分析了。這里我們從幾個維度來分析,第一個是評論時間,第二個是評分,第三個是評論內容(您也可以自己再多從幾個維度來分析)。
2.1. 時間分析:
時間我們分成兩點來做,分別是發布日期、發布時間。分析發布日期我們能知道評論的走勢,分析發布時間我們可以知道《大秦賦》在什麼時間點播放量是最高的。
先來看看發布時間,《大秦賦》是在12月1日首播,到目前為止已經半個月了。我們來看看這半個月時間的播放情況。以下是分析代碼:
可以看到評論數量在12月4日之前都是一直處於上升趨勢,在12月4日達到頂峰。前面4天屬於觀眾期待期,所以評論量會越來越多,但是在12月4日後出現斷崖式下降,說明本劇可能不是很受大家喜愛。
再來看下評論的時間,看看大家一般在幾點刷劇。這里我從0點到24點,2個小時為一個時間段統計評論數量。相關代碼如下:
可以看到在晚上8點到10點是評論量最多的,也正是電視劇播出時間段。緊接著是22-24,以及0-2點,有一部分晚上很晚才下班的小夥伴,可能會在這段時間追劇。然後又是上午10-12,以及14,16點,這段時間課時工作的最佳時間呀,怎麼會用來追劇呢。說明有相當一部分小夥伴,平時工作在摸魚呀,哈哈。
2.2. 評分分析:
想要知道一部劇好不好模伍,最直接的就是看觀眾給的評分,通過以下代碼分析:
其中1,2分的最多。說明《大秦賦》真的沒有被觀眾所認可呀。
2.3. 分析人物評分
劇中演員的演技,以及故事情節,會對劇的評分產生較大影響,那麼《大秦賦》中各個角色的演技,以及這個角色所產生的故事情節如何,我們接下來做一個簡單分析。
這里我們的演算法比較簡單(不是很嚴謹,但是也能說明問題)。舉個例子,觀眾給了1星,然後這個評論內容中出現了幾次」秦始皇「,說明觀眾對」秦始皇「這個角色是比較反感的。這里我們對內容進行分詞,然後提取」秦始皇「,」呂不韋「,」趙姬「,」嫪毐「,」李斯「等人進行分析。代碼如下:
只要你爬蟲玩得溜,抓到更多的數據,還有更多有趣好玩的細節等著你來 探索 !
福利
入門Python的最強三件套《ThinkPython》、《簡明Python教程》、《Python進階》的PDF電子版已打包提供給大家,「 P3 」即可獲取。
❾ 計算機二級python評分標准
計算機二級python評分標准:第1-10題是公共基礎知識,所有參加二年級考試的學生都一樣,主要依靠平時的積累。問題11-40與python相關,包括python的特點、保留字、變數命名、字元晌物串語法、輸入輸出語法格式、數字類型、者謹羨基本語法、分支結構、異常處理、內置函數、切片操作、交換文件操作、第三方庫、字典、集合、列表等。
考生不受年齡、職業、學歷等背景的限制,任何人均可根據自己學習和使用計算機的實際情況報考。每次考試報名的具體時間由各省(自治區、直轄市)級承辦機構規定。考生按照有關規定到就近考點報名。