爬蟲賺客吧源碼_python怎麼看源碼進行網路爬蟲

『壹』 python怎麼看源碼進行網路爬蟲

在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。
我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具截取下來，但這樣就降低圖片的清晰度。好吧～！其實你很厲害的，右鍵查看頁面源代碼。
我們可以通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的代碼爬取到本地。下面就看看如何使用python來實現這樣一個功能。

一，獲取整個頁面數據

首先我們可以先獲取要下載圖片的整個頁面信息。
getjpg.py

#coding=utf-8
import urllib

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

html = getHtml("http://tieba..com/p/2738151262")

print html

Urllib 模塊提供了讀取web頁面數據的介面，我們可以像讀取本地文件一樣讀取www和ftp上的數據。首先，我們定義了一個getHtml()函數:
urllib.urlopen()方法用於打開一個URL地址。
read()方法用於讀取URL上的數據，向getHtml()函數傳遞一個網址，並把整個頁面下載下來。執行程序就會把整個網頁列印輸出。

二，篩選頁面中想要的數據

Python 提供了非常強大的正則表達式，我們需要先要了解一點python 正則表達式的知識才行。
http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html

假如我們網路貼吧找到了幾張漂亮的壁紙，通過到前段查看工具。找到了圖片的地址，如：src=」https://gss0..com/70cFfyinKgQFm2e88IuM_a/forum......jpg」pic_ext=」jpeg」

修改代碼如下：

import re
import urllib

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist

html = getHtml("http://tieba..com/p/2460150866")
print getImg(html)

我們又創建了getImg()函數，用於在獲取的整個頁面中篩選需要的圖片連接。re模塊主要包含了正則表達式：
re.compile() 可以把正則表達式編譯成一個正則表達式對象.
re.findall() 方法讀取html 中包含 imgre（正則表達式）的數據。
運行腳本將得到整個頁面中包含圖片的URL地址。

三，將頁面篩選的數據保存到本地

把篩選的圖片地址通過for循環遍歷並保存到本地，代碼如下：

#coding=utf-8
import urllib
import re

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1

html = getHtml("http://tieba..com/p/2460150866")

print getImg(html)

這里的核心是用到了urllib.urlretrieve()方法，直接將遠程數據下載到本地。
通過一個for循環對獲取的圖片連接進行遍歷，為了使圖片的文件名看上去更規范，對其進行重命名，命名規則通過x變數加1。保存的位置默認為程序的存放目錄。
程序運行完成，將在目錄下看到下載到本地的文件。

『貳』 python 爬蟲（學了3天寫出的代碼）

import requests import parsel import threading,os import queue

class Thread(threading.Thread): def init (self,queue,path): threading.Thread. init (self) self.queue = queue self.path = path

def download_novel(url, path): res = get_response(url) selctor = parsel.Selector(res) title = selctor.css('.bookname > h1::text').get() print(title) content = ' '.join(selctor.css('#content::text').getall()) # 使用join方法改變內容； with open( path + title + ".txt","w",encoding='utf-8') as f: f.write(content) print(title,'保存成功!') f.close()

def get_response(url): # 獲得網站源碼； response = requests.get(url) response.encoding = 'utf-8' return response.text

if name == ' main ': # 函數入口 url = str(input('請輸入你要下載小說的url:')) response = get_response(url) sel = parsel.Selector(response) novelname = sel.css('#info > h1::text').get() urllist = sel.css('.box_con p dl dd a::attr(href)').getall() queue = queue.Queue() path = './{}/'.format(novelname)

『叄』 python 爬蟲代碼有了爬蟲代碼怎麼運行

打開python爬蟲代碼的源碼目錄，通常開始文件為，init.py,start.py,app.py尋找有沒有類似的python文件,如果沒有，請看源碼的readme文件，裡面會有說明，若以上都沒有，你可能需要python方面的知識，自己去看源碼，找到入口方法並運行
找到入口文件後，在當前目錄打開控制台，輸入python
正常情況下會出現下圖的提示，若沒有，請檢查當前pc的python環境是否有被正確安裝
最後，運行入口文件,輸入python ***.py(入口文件),運行爬蟲

『肆』 python爬蟲怎麼獲取動態的網頁源碼

一個月前實習導師布置任務說通過網路爬蟲獲取深圳市氣象局發布的降雨數據，網頁如下：

心想，爬蟲不太難的，當年跟zjb爬煎蛋網無（mei）聊（zi）圖的時候，多麼清高。由於接受任務後的一個月考試加作業一大堆，導師也不催，自己也不急。

但是，導師等我一個月都得讓我來寫意味著這東西得有多難吧。。。今天打開一看的確是這樣。網站是基於Ajax寫的，數據動態獲取，所以無法通過下載源代碼然後解析獲得。

從某不良少年寫的抓取淘寶mm的例子中收到啟發，對於這樣的情況，一般可以同構自己搭建瀏覽器實現。phantomJs，CasperJS都是不錯的選擇。

導師的要求是獲取過去一年內深圳每個區每個站點每小時的降雨量，執行該操作需要通過如上圖中的歷史查詢實現，即通過一個時間來查詢，而這個時間存放在一個hidden類型的input標簽里，當然可以通過js語句將其改為text類型，然後執行send_keys之類的操作。然而，我失敗了。時間可以修改設置，可是結果如下圖。

為此，僅抓取實時數據。選取python的selenium，模擬搭建瀏覽器，模擬人為的點擊等操作實現數據生成和獲取。selenium的一大優點就是能獲取網頁渲染後的源代碼，即執行操作後的源代碼。普通的通過 url解析網頁的方式只能獲取給定的數據，不能實現與用戶之間的交互。selenium通過獲取渲染後的網頁源碼，並通過豐富的查找工具，個人認為最好用的就是find_element_by_xpath("xxx")，通過該方式查找到元素後可執行點擊、輸入等事件，進而向伺服器發出請求，獲取所需的數據。

[python]view plain

#coding=utf-8
fromtestStringimport*
fromseleniumimportwebdriver
importstring
importos
fromselenium.webdriver.common.keysimportKeys
importtime
importsys
default_encoding='utf-8'
ifsys.getdefaultencoding()!=default_encoding:
reload(sys)
sys.setdefaultencoding(default_encoding)
district_navs=['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10']
district_names=['福田區','羅湖區','南山區','鹽田區','寶安區','龍崗區','光明新區','坪山新區','龍華新區','大鵬新區']
flag=1
while(flag>0):
driver=webdriver.Chrome()
driver.get("hianCe/")
#選擇降雨量
driver.find_element_by_xpath("//span[@id='fenqu_H24R']").click()
filename=time.strftime("%Y%m%d%H%M",time.localtime(time.time()))+'.txt'
#創建文件
output_file=open(filename,'w')
#選擇行政區
foriinrange(len(district_navs)):
driver.find_element_by_xpath("//div[@id='"+district_navs[i]+"']").click()
#printdriver.page_source
timeElem=driver.find_element_by_id("time_shikuang")
#輸出時間和站點名
output_file.write(timeElem.text+',')
output_file.write(district_names[i]+',')
elems=driver.find_elements_by_xpath("//span[@onmouseover='javscript:changeTextOver(this)']")
#輸出每個站點的數據，格式為：站點名，一小時降雨量，當日累積降雨量
foreleminelems:
output_file.write(AMonitorRecord(elem.get_attribute("title"))+',')
output_file.write(' ')
output_file.close()
driver.close()
time.sleep(3600)
文件中引用的文件testString只是修改輸出格式，提取有效數據。

[python]view plain

#Encoding=utf-8
defOnlyCharNum(s,oth=''):
s2=s.lower()
fomart=',.'
forcins2:
ifnotcinfomart:
s=s.replace(c,'')
returns
defAMonitorRecord(str):
str=str.split(":")
returnstr[0]+","+OnlyCharNum(str[1])

一小時抓取一次數據，結果如下：

『伍』如何用Java寫一個爬蟲

下面說明知乎爬蟲的源碼和涉及主要技術點：

（1）程序package組織

（2）模擬登錄（爬蟲主要技術點1）

要爬去需要登錄的網站數據，模擬登錄是必要可少的一步，而且往往是難點。知乎爬蟲的模擬登錄可以做一個很好的案例。要實現一個網站的模擬登錄，需要兩大步驟是：（1）對登錄的請求過程進行分析，找到登錄的關鍵請求和步驟，分析工具可以有IE自帶(快捷鍵F12)、Fiddler、HttpWatcher；（2）編寫代碼模擬登錄的過程。

（3）網頁下載（爬蟲主要技術點2）

模擬登錄後，便可下載目標網頁html了。知乎爬蟲基於HttpClient寫了一個網路連接線程池，並且封裝了常用的get和post兩種網頁下載的方法。

（4）自動獲取網頁編碼（爬蟲主要技術點3）

自動獲取網頁編碼是確保下載網頁html不出現亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網頁亂碼問題。

（5）網頁解析和提取（爬蟲主要技術點4）

使用Java寫爬蟲，常見的網頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲採用的就是Jsoup。

（6）正則匹配與提取（爬蟲主要技術點5）

雖然知乎爬蟲採用Jsoup來進行網頁解析，但是仍然封裝了正則匹配與提取數據的方法，因為正則還可以做其他的事情，如在知乎爬蟲中使用正則來進行url地址的過濾和判斷。

（7）數據去重（爬蟲主要技術點6）

對於爬蟲，根據場景不同，可以有不同的去重方案。（1）少量數據，比如幾萬或者十幾萬條的情況，使用Map或Set便可；（2）中量數據，比如幾百萬或者上千萬，使用BloomFilter（著名的布隆過濾器）可以解決；（3）大量數據，上億或者幾十億，Redis可以解決。知乎爬蟲給出了BloomFilter的實現，但是採用的Redis進行去重。

（8）設計模式等Java高級編程實踐

除了以上爬蟲主要的技術點之外，知乎爬蟲的實現還涉及多種設計模式，主要有鏈模式、單例模式、組合模式等，同時還使用了Java反射。除了學習爬蟲技術，這對學習設計模式和Java反射機制也是一個不錯的案例。

4. 一些抓取結果展示

『陸』用爬蟲抓取網頁得到的源代碼和瀏覽器中看到的不一樣運用了什麼技術

網頁源代碼和瀏覽器中看到的不一樣是因為網站採用了動態網頁技術（如AJAX、JavaScript等）來更新網頁內容。這些技術可以在敬禪用戶與網站進行交互時，通過非同步載入數據、動態更新頁面內容，實現更加流暢、快速的用戶體驗。而這些動態內容無法通過簡單的網頁源代碼獲取，需要通過瀏覽器進行渲染後亮閉塵才能看到。
當使用爬蟲抓取網頁時，一般只能獲取到網頁源代碼，而無法獲取到經過瀏覽器渲染後的頁面內容。如果要獲取經過瀏覽器渲染後的內容，需要使用一個瀏覽器渲染引擎（如Selenium）來模擬瀏覽器行為，從而獲取到完整的頁面內容。
另外，網站為了防止爬蟲抓取數據，可能會採用態答一些反爬蟲技術，如設置驗證碼、限制IP訪問頻率等。這些技術也會導致爬蟲獲取到的頁面內容與瀏覽器中看到的不一樣。

『柒』如何通過網路爬蟲獲取網站數據

這里以python為例，簡單介紹一下如何通過python網路爬蟲獲取網站數據，主要分為靜態網頁數據的爬埋山差取和動態網頁數據的爬取，實驗環境win10+python3.6+pycharm5.0，主要內容如下：

靜態網頁數據

這里的數據都嵌套在網頁源碼中，所以直接requests網頁源碼進行解析就行，下面我簡單介紹一下，這里以爬取糗事網路上的數據為例：

1.首先，打開原網頁，如下，這里假設要爬取的欄位包括昵稱、內容、好笑數和評論數：

接著查看網頁源碼，如下，可以看的出來，所有的數據都嵌套在網頁中：

2.然後針對以上網頁結構，我們就可以直接編寫爬蟲代碼，解析網頁並提取出我們需要的數據了，測試代碼如下，非常簡單，主要用到requests+BeautifulSoup組合，其中requests用於獲取網頁源碼，BeautifulSoup用於解析網頁提取數據：

點擊運行這個程序，效果如下，已經成功爬取了到我們需要的數據：

動態網頁數據

這里的數據都沒有在網頁源碼中（所以直接請求頁面是獲取不到任何數據的），大部分情況下都是存儲在一唯唯個json文件中，只有在網頁更新的時候，才會載入數據，下面我簡單介紹一下這種方式，這里以爬取人人貸上面的數據為例：

1.首先，打開原網頁，如下，這里假設要爬取的數據包括年利率，借款標題，期限，金額和進度：

接著按F12調出開發者工具，依次點擊「Network」->「XHR」，F5刷新頁面，就可以找打動態載入的json文件，如下，也就是我們需要爬彎皮取的數據：

2.然後就是根據這個json文件編寫對應代碼解析出我們需要的欄位信息，測試代碼如下，也非常簡單，主要用到requests+json組合，其中requests用於請求json文件，json用於解析json文件提取數據：

點擊運行這個程序，效果如下，已經成功爬取到我們需要的數據：

至此，我們就完成了利用python網路爬蟲來獲取網站數據。總的來說，整個過程非常簡單，python內置了許多網路爬蟲包和框架（scrapy等），可以快速獲取網站數據，非常適合初學者學習和掌握，只要你有一定的爬蟲基礎，熟悉一下上面的流程和代碼，很快就能掌握的，當然，你也可以使用現成的爬蟲軟體，像八爪魚、後羿等也都可以，網上也有相關教程和資料，非常豐富，感興趣的話，可以搜一下，希望以上分享的內容能對你有所幫助吧，也歡迎大家評論、留言進行補充。

導航:首頁 > 源碼編譯 > 爬蟲賺客吧源碼

爬蟲賺客吧源碼

與爬蟲賺客吧源碼相關的資料