『壹』 python網路數據採集 用python寫網路爬蟲 哪個好
寫python爬蟲2年多了,主要用的scrapy。關於python3,還沒有開始學;在這方面,我算是傳統的。一直在思考什麼時候轉python3。我主要關注的是我常用的python庫是否支持,一旦支持,就立刻轉python3.從最早的django、MySQLdb、PIL(Pillow)不支持,但現在這三者都支持了。所以在做web項目的時候是可以直接用python3了。所以現在的計劃是今年下半年轉python3。
說回爬蟲。scrapy確實使用者眾,可惜還不支持python3。所以現在的爬蟲項目還是用python2.7。現在用著非常順手。我的思路是,用django開發業務邏輯,根據業務邏輯建立的model,用scrapy抓取。是的,我的項目將django和scrapy代碼放在一個repo了。也可以分開。另外,scrapy的調度使用的是celery,所有爬蟲的調度時間和頻率都是用celery控制的。django、scrapy、celery是我做開發的三大法器。
如果你不想使用scrapy等框架,像上面的回答一樣,用一些請求庫和解析庫也能搭建出來。但我傾向於用django、celery、scrapy搭建通用的抓取系統。簡單說,用django建立模型,scrapy做一些常用爬蟲,規則定義模塊;celery制定調度策略,可以非常快地建立一套系統。
『貳』 python怎樣讀取pdf文件的內容
1,引言
晚上翻看《Python網路數據採集》這本書,看到讀取PDF內容的代碼,想起來前幾天集搜客剛剛發布了一個抓取網頁pdf內容的抓取規則,這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於Firefox解析PDF的能力,能夠把pdf格式轉換成html標簽,比如,div之類的標簽,從而用GooSeeker網頁抓取軟體像抓普通網頁一樣抓取結構化內容。
從而產生了一個問題:用Python爬蟲的話,能做到什麼程度。下面將講述一個實驗過程和源代碼。
2,把pdf轉換成文本的Python源代碼
下面的python源代碼,讀取pdf文件內容(互聯網上的或是本地的),轉換成文本,列印出來。這段代碼主要用了一個第三方庫PDFMiner3K把PDF讀成字元串,然後用StringIO轉換成文件對象。(源代碼下載地址參看文章末尾的GitHub源)
復制代碼
from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()
復制代碼
如果PDF文件在你的電腦里,那就把urlopen返回的對象pdfFile替換成普通的open()文件對象。
3,展望
這個實驗只是把pdf轉換成了文本,但是沒有像開頭所說的轉換成html標簽,那麼在Python編程環境下是否有這個能力,留待今後探索。
4,集搜客GooSeeker開源代碼下載源
1. GooSeeker開源Python網路爬蟲GitHub源
5,文檔修改歷史
2016-05-26:V2.0,增補文字說明
2016-05-29:V2.1,增加第六章:源代碼下載源,並更換github源的網址
『叄』 如何通過網路爬蟲獲取網站數據
這里以python為例,簡單介紹一下如何通過python網路爬蟲獲取網站數據,主要分為靜態網頁數據的爬埋山差取和動態網頁數據的爬取,實驗環境win10+python3.6+pycharm5.0,主要內容如下:
靜態網頁數據
這里的數據都嵌套在網頁源碼中,所以直接requests網頁源碼進行解析就行,下面我簡單介紹一下,這里以爬取糗事網路上的數據為例:
1.首先,打開原網頁,如下,這里假設要爬取的欄位包括昵稱、內容、好笑數和評論數:
接著查看網頁源碼,如下,可以看的出來,所有的數據都嵌套在網頁中:
2.然後針對以上網頁結構,我們就可以直接編寫爬蟲代碼,解析網頁並提取出我們需要的數據了,測試代碼如下,非常簡單,主要用到requests+BeautifulSoup組合,其中requests用於獲取網頁源碼,BeautifulSoup用於解析網頁提取數據:
點擊運行這個程序,效果如下,已經成功爬取了到我們需要的數據:
動態網頁數據
這里的數據都沒有在網頁源碼中(所以直接請求頁面是獲取不到任何數據的),大部分情況下都是存儲在一唯唯個json文件中,只有在網頁更新的時候,才會載入數據,下面我簡單介紹一下這種方式,這里以爬取人人貸上面的數據為例:
1.首先,打開原網頁,如下,這里假設要爬取的數據包括年利率,借款標題,期限,金額和進度:
接著按F12調出開發者工具,依次點擊「Network」->「XHR」,F5刷新頁面,就可以找打動態載入的json文件,如下,也就是我們需要爬彎皮取的數據:
2.然後就是根據這個json文件編寫對應代碼解析出我們需要的欄位信息,測試代碼如下,也非常簡單,主要用到requests+json組合,其中requests用於請求json文件,json用於解析json文件提取數據:
點擊運行這個程序,效果如下,已經成功爬取到我們需要的數據:
至此,我們就完成了利用python網路爬蟲來獲取網站數據。總的來說,整個過程非常簡單,python內置了許多網路爬蟲包和框架(scrapy等),可以快速獲取網站數據,非常適合初學者學習和掌握,只要你有一定的爬蟲基礎,熟悉一下上面的流程和代碼,很快就能掌握的,當然,你也可以使用現成的爬蟲軟體,像八爪魚、後羿等也都可以,網上也有相關教程和資料,非常豐富,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言進行補充。
『肆』 使用python採集網頁內容時那登錄那個網站,否則採集不了!請問怎麼實現python登錄後採集網頁
有些網頁需要你登錄之後才可以訪問,你需要提供賬戶和密碼。
只要在發送http請求時,帶上含有正常登陸的cookie就可以了。
1.首先我們要先了解cookie的工作原理。
Cookie是由伺服器端生成,發送給User-Agent(一般是瀏覽器),瀏覽器會將Cookie的key/value保存到某個目錄下的文本文件內,下次請求同一網站時就發送該Cookie給伺服器(前提是瀏覽器設置為啟用cookie)。Cookie名稱和值可以由伺服器端開發自己定義,對於JSP而言也可以直接寫入jsessionid,這樣伺服器可以知道該用戶是否合法用戶以及是否需要重新登錄等。
2.之後我們要獲取到用戶正常登錄的cookie.
python提供了cookieJar的庫,只要把cookieJar的實例作為參數傳到urllib2的一個opener裡面。
然後訪問一次登錄的頁面,cookie就已經保存下來了。之後通過這個實例訪問所有的頁面都帶有正常登陸的cookie了。
以人人網為例子。
#encoding=utf-8
import urllib2
import urllib
import cookielib
def renrenBrower(url,user,password):
#登陸頁面,可以通過抓包工具分析獲得,如fiddler,wireshark
login_page = "http://www.renren.com/PLogin.do"
try:
#獲得一個cookieJar實例
cj = cookielib.CookieJar()
#cookieJar作為參數,獲得一個opener的實例
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
#偽裝成一個正常的瀏覽器,避免有些web伺服器拒絕訪問。
opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')]
#生成Post數據,含有登陸用戶名密碼。
data = urllib.urlencode({"email":user,"password":password})
#以post的方法訪問登陸頁面,訪問之後cookieJar會自定保存cookie
opener.open(login_page,data)
#以帶cookie的方式訪問頁面
op=opener.open(url)
#讀取頁面源碼
data= op.read()
return data
except Exception,e:
print str(e)
#訪問某用戶的個人主頁,其實這已經實現了人人網的簽到功能。
print renrenBrower("http://www.renren.com/home","用戶名","密碼")
『伍』 學python買什麼書
1、基礎書籍:《Python編程》
豆瓣評分:9.0分
推薦指數:★★★★★
以上為7本有關Python的好書推薦,大家可以根據自己的基礎和興趣,選擇相應的讀本進行學習哦!
『陸』 python數據採集是什麼
數據採集(DAQ),又稱數據獲取,是指從感測器和其它待測設備等模擬和數字被測單元中自動採集非電量或者電量信號,送到上位機中進行分析,處理。數據採集系統是結合基於計算機或者其他專用測試平台的測量軟硬體產品來實現靈活的、用戶自定義的測量系統。採集一般是采樣方式,即隔一定時間(稱采樣周期)對同一點數據重復採集。採集的數據大多是瞬時值,也可是某段時間內的一個特徵值。
網路爬蟲是用於數據採集的一門技術,可以幫助我們自動地進行信息的獲取與篩選。從技術手段來說,網路爬蟲有多種實現方案,如PHP、java、Python ...。那麼用python 也會有很多不同的技術方案(Urllib、requests、scrapy、selenium...),每種技術各有各的特點,只需掌握一種技術,其它便迎刃而解。同理,某一種技術解決不了的難題,用其它技術或方依然無法解決。網路爬蟲的難點並不在於網路爬蟲本身,而在於網頁的分析與爬蟲的反爬攻克問題。
python學習網,免費的在線學習python平台,歡迎關注!
『柒』 python爬蟲可以自學嗎
無論是從入門級選手到專業級選手都在做的爬蟲,還是Web 程序開發、桌面程序開發,又或者是科學計算、圖像處理,Python編程都可以勝任。或許是因為這種屬性,周圍好多小夥伴都開始學習Python。Python爬蟲可以自學嗎?(推薦學習:Python視頻教程)
可以的,世上無難事只怕有心人。只要你下定決心,把下面的書籍吃透,動手實踐,相信你的爬蟲技術一定ok。
Python是一種代表簡單主義思想的語言。閱讀一個良好的Python程序就感覺像是在讀英語一樣。它使你能夠專注於解決問題而不是去搞明白語言本身。
Python極其容易上手,因為Python有極其簡單的說明文檔
1、如果你用Python3寫爬蟲,強力推薦《Python網路數據採集》這本書,應該是目前最系統最完善介紹Python爬蟲的書。可以去圖靈社區買電子版。
書的內容很新也很系統,從beautifulSoup,requests到ajax,圖像識別,單元測試。比起絕大多數blog零散的教程要好的多,看完書後就可以去做些實戰項目,這個時候可以去github上找類似的項目借鑒下。
2、國內也有一本講爬蟲的好書,《自己動手寫網路爬蟲》,這本書除了介紹爬蟲基本原理,包括優先順序,寬度優先搜索,分布式爬蟲,多線程,還有雲計算,數據挖掘內容。只不過用了java來實現,但思路是相同的。
Python爬蟲靠系統學習固然好,直接寫一個項目出來效果更加簡單粗暴!(不過自己現在的水平寫出來都是流水一般的面向過程的代碼,代碼的重復部分太多,正在回過頭去學習面向對象編程,學習類和方法的使用。不過,我還是堅定地認為:入門的時候,應該直接簡單粗暴地實踐一個項目。
3、哪裡不會搜哪裡!哪裡報錯改哪裡!相信我你遇到的99%的問題都能從網上找到相似的問題,你需要做的就是寫代碼!搜問題!調BUG!你搜不到解決辦法的情況下,80%的情況是你搜索的姿勢不對,另外20%可能需要你自己動動腦子,換個思路去做。
目前在IT行業里,技術是在新月異的更新中,不斷換代升級,Python行業更是如此。而我們知道,在學校所學專業知識可能很難滿足如今的社會需求。
說了這么多,要是現在的情況不適合你進行自學,或許是你的自製力不夠,或許是你沒有足夠多的時間自學,或許你需要更專業的課程學習,相信專業的課程學習能帶給你更多東西,相信你會收獲更多的友誼和人脈資源。
更多Python相關技術文章,請訪問Python教程欄目進行學習!以上就是小編分享的關於python爬蟲可以自學嗎的詳細內容希望對大家有所幫助,更多有關python教程請關注環球青藤其它相關文章!
『捌』 如何入門 Python 爬蟲
我也正在學,推薦參考書:《Python網路數據採集》
在這之前應該有一定的Python基礎,了解一下網路數據格式
本書內 容 提 要
本書採用簡潔強大的 Python 語言,介紹了網路數據採集,並為採集新式網路中的各種數據類
型提供了全面的指導。第一部分重點介紹網路數據採集的基本原理 :如何用 Python 從網路伺服器請求信息,如何對伺服器的響應進行基本處理,以及如何以自動化手段與網站進行交互。第二部分介紹如何用網路爬蟲測試網站,自動化處理,以及如何通過更多的方式接入網路。
本書適合需要採集 Web 數據的相關軟體開發人員和研究人員閱讀。