導航:首頁 > 編程語言 > python爬蟲模塊怎麼設置

python爬蟲模塊怎麼設置

發布時間:2023-01-21 13:54:48

A. 怎麼樣使用python的Scrapy爬蟲框架

有些人問,開發網路爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的?這里按照我的經驗隨便扯淡一下:

上面說的爬蟲,基本可以分3類:

1.分布式爬蟲:Nutch

2.JAVA單機爬蟲:Crawler4j、WebMagic、WebCollector

3. 非JAVA單機爬蟲:scrapy

第一類:分布式爬蟲

爬蟲使用分布式,主要是解決兩個問題:

1)海量URL管理

2)網速

現在比較流行的分布式爬蟲,是Apache的Nutch。但是對於大多數用戶來說,Nutch是這幾類爬蟲里,最不好的選擇,理由如下:

1)Nutch是為搜索引擎設計的爬蟲,大多數用戶是需要一個做精準數據爬取(精抽取)的爬蟲。Nutch運行的一套流程里,有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說,用Nutch做數據抽取,會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發,來使得它適用於精抽取的業務,基本上就要破壞Nutch的框架,把Nutch改的面目全非,有修改Nutch的能力,真的不如自己重新寫一個分布式爬蟲框架了。

2)Nutch依賴hadoop運行,hadoop本身會消耗很多的時間。如果集群機器數量較少,爬取速度反而不如單機爬蟲快。

3)Nutch雖然有一套插件機制,而且作為亮點宣傳。可以看到一些開源的Nutch插件,提供精抽取的功能。但是開發過Nutch插件的人都知道,Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件,使得程序的編寫和調試都變得異常困難,更別說在上面開發一套復雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點,而這五六個掛載點都是為了搜索引擎服務的,並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件,都是掛載在「頁面解析」(parser)這個掛載點的,這個掛載點其實是為了解析鏈接(為後續爬取提供URL),以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text文本)。

4)用Nutch進行爬蟲的二次開發,爬蟲的編寫和調試所需的時間,往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高,何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。

5)很多人說Nutch2有gora,可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了,這里說的持久化數據,是指將URL信息(URL管理所需要的數據)存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說,URL信息存在哪裡無所謂。

6)Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1,但是這個版本綁定了gora-0.3。如果想用hbase配合nutch(大多數人用nutch2就是為了用hbase),只能使用0.90版本左右的hbase,相應的就要將hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導作用,Nutch2的教程有兩個,分別是Nutch1.x和Nutch2.x,這個Nutch2.x官網上寫的是可以支持到hbase 0.94。但是實際上,這個Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之後的一個版本,這個版本在官方的SVN中不斷更新。而且非常不穩定(一直在修改)。

所以,如果你不是要做搜索引擎,盡量不要選擇Nutch作為爬蟲。有些團隊就喜歡跟風,非要選擇Nutch來開發精抽取的爬蟲,其實是沖著Nutch的名氣(Nutch作者是Doug Cutting),當然最後的結果往往是項目延期完成。

如果你是要做搜索引擎,Nutch1.x是一個非常好的選擇。Nutch1.x和solr或者es配合,就可以構成一套非常強大的搜索引擎了。如果非要用Nutch2的話,建議等到Nutch2.3發布再看。目前的Nutch2是一個非常不穩定的版本。

B. 「2022 年」崔慶才 Python3 爬蟲教程 - 代理的使用方法

前面我們介紹了多種請求庫,如 urllib、requests、Selenium、Playwright 等用法,但是沒有統一梳理代理的設置方法,本節我們來針對這些庫來梳理下代理的設置方法。

在本節開始之前,請先根據上一節了解一下代理的基本原理,了解了基本原理之後我們可以更好地理解和學習本節的內容。

另外我們需要先獲取一個可用代理,代理就是 IP 地址和埠的組合,就是 : 這樣的格式。如果代理需要訪問認證,那就還需要額外的用戶名密碼兩個信息。

那怎麼獲取一個可用代理呢?

使用搜索引擎搜索 「代理」 關鍵字,可以看到許多代理服務網站,網站上會有很多免費或付費代理,比如快代理的免費 HTTP 代理:https://www.kuaidaili.com/free/ 上面就寫了很多免費代理,但是這些免費代理大多數情況下並不一定穩定,所以比較靠譜的方法是購買付費代理。付費代理的各大代理商家都有套餐,數量不用多,穩定可用即可,我們可以自行選購。

另外除了購買付費 HTTP 代理,我們也可以在本機配置一些代理軟體,具體的配置方法可以參考 https://setup.scrape.center/proxy-client,軟體運行之後會在本機創建 HTTP 或 SOCKS 代理服務,所以代理地址一般都是 127.0.0.1: 這樣的格式,不同的軟體用的埠可能不同。

這里我的本機安裝了一部代理軟體,它會在本地 7890 埠上創建 HTTP 代理服務,即代理為 127.0.0.1:7890。另外,該軟體還會在 7891 埠上創建 SOCKS 代理服務,即代理為 127.0.0.1:7891,所以只要設置了這個代理,就可以成功將本機 IP 切換到代理軟體連接的伺服器的 IP 了。

在本章下面的示例里,我使用上述代理來演示其設置方法,你也可以自行替換成自己的可用代理。

設置代理後,測試的網址是 http://httpbin.org/get,訪問該鏈接我們可以得到請求的相關信息,其中返回結果的 origin 欄位就是客戶端的 IP,我們可以根據它來判斷代理是否設置成功,即是否成功偽裝了 IP。

好,接下來我們就來看下各個請求庫的代理設置方法吧。

首先我們以最基礎的 urllib 為例,來看一下代理的設置方法,代碼如下:

運行結果如下:

這里我們需要藉助 ProxyHandler 設置代理,參數是字典類型,鍵名為協議類型,鍵值是代理。注意,此處代理前面需要加上協議,即 http:// 或者 https://,當請求的鏈接是 HTTP 協議的時候,會使用 http 鍵名對應的代理,當請求的鏈接是 HTTPS 協議的時候,會使用 https 鍵名對應的代理。不過這里我們把代理本身設置為了 HTTP 協議,即前綴統一設置為了 http://,所以不論訪問 HTTP 還是 HTTPS 協議的鏈接,都會使用我們配置的 HTTP 協議的代理進行請求。

創建完 ProxyHandler 對象之後,我們需要利用 build_opener 方法傳入該對象來創建一個 Opener,這樣就相當於此 Opener 已經設置好代理了。接下來直接調用 Opener 對象的 open 方法,即可訪問我們所想要的鏈接。

運行輸出結果是一個 JSON,它有一個欄位 origin,標明了客戶端的 IP。驗證一下,此處的 IP 確實為代理的 IP,並不是真實的 IP。這樣我們就成功設置好代理,並可以隱藏真實 IP 了。

如果遇到需要認證的代理,我們可以用如下的方法設置:

這里改變的只是 proxy 變數,只需要在代理前面加入代理認證的用戶名密碼即可,其中 username 就是用戶名,password 為密碼,例如 username 為 foo,密碼為 bar,那麼代理就是 foo:[email protected]:7890。

如果代理是 SOCKS5 類型,那麼可以用如下方式設置代理:

此處需要一個 socks 模塊,可以通過如下命令安裝:

這里需要本地運行一個 SOCKS5 代理,運行在 7891 埠,運行成功之後和上文 HTTP 代理輸出結果是一樣的:

結果的 origin 欄位同樣為代理的 IP,代理設置成功。

對於 requests 來說,代理設置非常簡單,我們只需要傳入 proxies 參數即可。

這里以我本機的代理為例,來看下 requests 的 HTTP 代理設置,代碼如下:

運行結果如下:

和 urllib 一樣,當請求的鏈接是 HTTP 協議的時候,會使用 http 鍵名對應的代理,當請求的鏈接是 HTTPS 協議的時候,會使用 https 鍵名對應的代理,不過這里統一使用了 HTTP 協議的代理。

運行結果中的 origin 若是代理伺服器的 IP,則證明代理已經設置成功。

如果代理需要認證,那麼在代理的前面加上用戶名和密碼即可,代理的寫法就變成如下所示:

這里只需要將 username 和 password 替換即可。

如果需要使用 SOCKS 代理,則可以使用如下方式來設置:

這里我們需要額外安裝一個包 requests[socks],相關命令如下所示:

運行結果是完全相同的:

另外,還有一種設置方式,即使用 socks 模塊,也需要像上文一樣安裝 socks 庫。這種設置方法如下所示:

使用這種方法也可以設置 SOCKS 代理,運行結果完全相同。相比第一種方法,此方法是全局設置的。我們可以在不同情況下選用不同的方法。

httpx 的用法本身就與 requests 的使用非常相似,所以其也是通過 proxies 參數來設置代理的,不過與 requests 不同的是,proxies 參數的鍵名不能再是 http 或 https,而需要更改為 http:// 或 https://,其他的設置是一樣的。

對於 HTTP 代理來說,設置方法如下:

對於需要認證的代理,也是改下 proxy 的值即可:

這里只需要將 username 和 password 替換即可。

運行結果和使用 requests 是類似的,結果如下:

對於 SOCKS 代理,我們需要安裝 httpx-socks 庫,安裝方法如下:

這樣會同時安裝同步和非同步兩種模式的支持。

對於同步模式,設置方法如下:

對於非同步模式,設置方法如下:

和同步模式不同的是,transport 對象我們用的是 AsyncProxyTransport 而不是 SyncProxyTransport,同時需要將 Client 對象更改為 AsyncClient 對象,其他的不變,運行結果是一樣的。

Selenium 同樣可以設置代理,這里以 Chrome 為例來介紹其設置方法。

對於無認證的代理,設置方法如下:

運行結果如下:

代理設置成功,origin 同樣為代理 IP 的地址。

如果代理是認證代理,則設置方法相對比較繁瑣,具體如下所示:

這里需要在本地創建一個 manifest.json 配置文件和 background.js 腳本來設置認證代理。運行代碼之後,本地會生成一個 proxy_auth_plugin.zip 文件來保存當前配置。

運行結果和上例一致,origin 同樣為代理 IP。

SOCKS 代理的設置也比較簡單,把對應的協議修改為 socks5 即可,如無密碼認證的代理設置方法為:

運行結果是一樣的。

對於 aiohttp 來說,我們可以通過 proxy 參數直接設置。HTTP 代理設置如下:

如果代理有用戶名和密碼,像 requests 一樣,把 proxy 修改為如下內容:

這里只需要將 username 和 password 替換即可。

對於 SOCKS 代理,我們需要安裝一個支持庫 aiohttp-socks,其安裝命令如下:

我們可以藉助於這個庫的 ProxyConnector 來設置 SOCKS 代理,其代碼如下:

運行結果是一樣的。

另外,這個庫還支持設置 SOCKS4、HTTP 代理以及對應的代理認證,可以參考其官方介紹。

對於 Pyppeteer 來說,由於其默認使用的是類似 Chrome 的 Chromium 瀏覽器,因此其設置方法和 Selenium 的 Chrome 一樣,如 HTTP 無認證代理設置方法都是通過 args 來設置的,實現如下:

運行結果如下:

同樣可以看到設置成功。

SOCKS 代理也一樣,只需要將協議修改為 socks5 即可,代碼實現如下:

運行結果也是一樣的。

相對 Selenium 和 Pyppeteer 來說,Playwright 的代理設置更加方便,其預留了一個 proxy 參數,可以在啟動 Playwright 的時候設置。

對於 HTTP 代理來說,可以這樣設置:

在調用 launch 方法的時候,我們可以傳一個 proxy 參數,是一個字典。字典有一個必填的欄位叫做 server,這里我們可以直接填寫 HTTP 代理的地址即可。

運行結果如下:

對於 SOCKS 代理,設置方法也是完全一樣的,我們只需要把 server 欄位的值換成 SOCKS 代理的地址即可:

運行結果和剛才也是完全一樣的。

對於有用戶名和密碼的代理,Playwright 的設置也非常簡單,我們只需要在 proxy 參數額外設置 username 和 password 欄位即可,假如用戶名和密碼分別是 foo 和 bar,則設置方法如下:

這樣我們就能非常方便地為 Playwright 實現認證代理的設置。

以上我們就總結了各個請求庫的代理使用方式,各種庫的設置方法大同小異,學會了這些方法之後,以後如果遇到封 IP 的問題,我們可以輕鬆通過加代理的方式來解決。

本節代碼:https://github.com/Python3WebSpider/ProxyTest

C. 如何入門 Python 爬蟲

Python入門程度的基礎很簡單:
1、簡單的python語法,不需要什麼很深的東西
2、請求庫用法(requests、aiohttp等)
3、簡單的抓包/摳URL
4、xpath、正則表達式的使用,且能在不用生成工具的情況下自己寫出語句提取數據
以上四點已經足夠讓你爬一些簡單的網站了,但僅僅是這個程度而已的話,就還沒那些傻瓜式爬蟲工具強呢。你還需要JavaScript/Android/iOS逆向知識(核心,雜七雜八的那些這里不一一列舉,太多了),用於破加密請求參數、反爬等各種阻止你獲取到數據的東西。

D. python爬蟲項目實戰:爬取用戶的所有信息,如性別、年齡等

python爬蟲項目實戰:
爬取糗事網路用戶的所有信息,包括用戶名、性別、年齡、內容等等。

10個步驟實現項目功能,下面開始實例講解:
1.導入模塊
import re
import urllib.request
from bs4 import BeautifulSoup
2.添加頭文件,防止爬取過程被拒絕鏈接
def qiuShi(url,page):
################### 模擬成高仿度瀏覽器的行為 ##############

heads ={
'Connection':'keep-alive',
'Accept-Language':'zh-CN,zh;q=0.9',
'Accept':'text/html,application/xhtml+xml,application/xml;
q=0.9,image/webp,image/apng, / ;q=0.8',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}
headall = []
for key,value in heads.items():
items = (key,value)

headall.append(items)

opener = urllib.request.build_opener()

opener.addheaders = headall

urllib.request.install_opener(opener)

data = opener.open(url).read().decode()

################## end ########################################
3.創建soup解析器對象
soup = BeautifulSoup(data,'lxml')
x = 0
4.開始使用BeautifulSoup4解析器提取用戶名信息
############### 獲取用戶名 ########################
name = []

unames = soup.find_all('h2')

for uname in unames:

name.append(uname.get_text())

#################end#############################
5.提取發表的內容信息
############## 發表的內容 #########################
cont = []
data4 = soup.find_all('div',class_='content')

data4 = str(data4)

soup3 = BeautifulSoup(data4,'lxml')
contents = soup3.find_all('span')
for content in contents:

cont.append(content.get_text())

##############end####################################
6.提取搞笑指數
#################搞笑指數##########################
happy = []

data2 = soup.find_all('span',class_="stats-vote")

data2 = str(data2) # 將列表轉換成字元串形式才可以使用

soup1 = BeautifulSoup(data2,'lxml')
happynumbers = soup1.find_all('i',class_="number")
for happynumber in happynumbers:

happy.append(happynumber.get_text())

##################end#############################
7.提取評論數
############## 評論數 ############################
comm = []
data3 = soup.find_all('a',class_='qiushi_comments')
data3 = str(data3)

soup2 = BeautifulSoup(data3,'lxml')
comments = soup2.find_all('i',class_="number")
for comment in comments:

comm.append(comment.get_text())
############end#####################################
8.使用正則表達式提取性別和年齡
######## 獲取性別和年齡 ##########################

pattern1 = '<div class="articleGender (w ?)Icon">(d ?)</div>'
sexages = re.compile(pattern1).findall(data)

9.設置用戶所有信息輸出的格局設置
################## 批量輸出用戶的所以個人信息 #################
print()
for sexage in sexages:
sa = sexage
print(' ' 17, '= = 第', page, '頁-第', str(x+1) + '個用戶 = = ',' ' 17)

print('【用戶名】:',name[x],end='')

print('【性別】:',sa[0],' 【年齡】:',sa[1])

print('【內容】:',cont[x])

print('【搞笑指數】:',happy[x],' 【評論數】:',comm[x])
print(' ' 25,' 三八分割線 ',' ' 25)
x += 1
###################end##########################
10.設置循環遍歷爬取13頁的用戶信息
for i in range(1,14):

url = ' https://www.qiushike.com/8hr/page/'+str(i)+'/'
qiuShi(url,i)
運行結果,部分截圖:

E. 如何用Python做爬蟲

1)首先你要明白爬蟲怎樣工作。

想像你是一隻蜘蛛,現在你被放到了互聯「網」上。那麼,你需要把所有的網頁都看一遍。怎麼辦呢?沒問題呀,你就隨便從某個地方開始,比如說人民日報的首頁,這個叫initial pages,用$表示吧。

在人民日報的首頁,你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了「國內新聞」那個頁面。太好了,這樣你就已經爬完了倆頁面(首頁和國內新聞)!暫且不用管爬下來的頁面怎麼處理的,你就想像你把這個頁面完完整整抄成了個html放到了你身上。

突然你發現, 在國內新聞這個頁面上,有一個鏈接鏈回「首頁」。作為一隻聰明的蜘蛛,你肯定知道你不用爬回去的吧,因為你已經看過了啊。所以,你需要用你的腦子,存下你已經看過的頁面地址。這樣,每次看到一個可能需要爬的新鏈接,你就先查查你腦子里是不是已經去過這個頁面地址。如果去過,那就別去了。

好的,理論上如果所有的頁面可以從initial page達到的話,那麼可以證明你一定可以爬完所有的網頁。

那麼在python里怎麼實現呢?
很簡單

import Queue

initial_page = "初始化頁"

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直進行直到海枯石爛
if url_queue.size()>0:
current_url = url_queue.get() #拿出隊例中第一個的url
store(current_url) #把這個url代表的網頁存儲好
for next_url in extract_urls(current_url): #提取把這個url里鏈向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break

寫得已經很偽代碼了。

所有的爬蟲的backbone都在這里,下面分析一下為什麼爬蟲事實上是個非常復雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。

2)效率
如果你直接加工一下上面的代碼直接運行的話,你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。

問題出在哪呢?需要爬的網頁實在太多太多了,而上面的代碼太慢太慢了。設想全網有N個網站,那麼分析一下判重的復雜度就是N*log(N),因為所有網頁要遍歷一次,而每次判重用set的話需要log(N)的復雜度。OK,OK,我知道python的set實現是hash——不過這樣還是太慢了,至少內存使用效率不高。

通常的判重做法是怎樣呢?Bloom Filter. 簡單講它仍然是一種hash的方法,但是它的特點是,它可以使用固定的內存(不隨url的數量而增長)以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐,它的唯一問題在於,如果這個url不在set中,BF可以100%確定這個url沒有看過。但是如果這個url在set中,它會告訴你:這個url應該已經出現過,不過我有2%的不確定性。注意這里的不確定性在你分配的內存足夠大的時候,可以變得很小很少。一個簡單的教程:Bloom Filters by Example

注意到這個特點,url如果被看過,那麼可能以小概率重復看一看(沒關系,多看看不會累死)。但是如果沒被看過,一定會被看一下(這個很重要,不然我們就要漏掉一些網頁了!)。 [IMPORTANT: 此段有問題,請暫時略過]

好,現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大,只要你的機器下載網頁的速度是瓶頸的話,那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧!當然,我們假設每台機子都已經進了最大的效率——使用多線程(python的話,多進程吧)。

3)集群化抓取
爬取豆瓣的時候,我總共用了100多台機器晝夜不停地運行了一個月。想像如果只用一台機子你就得運行100個月了...

那麼,假設你現在有100台機器可以用,怎麼用python實現一個分布式的爬取演算法呢?

我們把這100台中的99台運算能力較小的機器叫作slave,另外一台較大的機器叫作master,那麼回顧上面代碼中的url_queue,如果我們能把這個queue放到這台master機器上,所有的slave都可以通過網路跟master聯通,每當一個slave完成下載一個網頁,就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁,就把這個網頁上所有的鏈接送到master的queue里去。同樣,bloom filter也放到master上,但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里,而被訪問過的url放到運行在master上的Redis里,這樣保證所有操作都是O(1)。(至少平攤是O(1),Redis的訪問效率見:LINSERT – Redis)

考慮如何用python實現:
在各台slave上裝好scrapy,那麼各台機子就變成了一台有抓取能力的slave,在master上裝好Redis和rq用作分布式隊列。

代碼於是寫成

#slave.py

current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)

store(current_url);
send_to_master(to_send)

#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()

initial_pages = "www.renmingribao.com"

while(True):
if request == 'GET':
if distributed_queue.size()>0:
send(distributed_queue.get())
else:
break
elif request == 'POST':
bf.put(request.url)

好的,其實你能想到,有人已經給你寫好了你需要的:darkrho/scrapy-redis · GitHub

4)展望及後處理
雖然上面用很多「簡單」,但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。

但是如果附加上你需要這些後續處理,比如

有效地存儲(資料庫應該怎樣安排)

有效地判重(這里指網頁判重,咱可不想把人民日報和抄襲它的大民日報都爬一遍)

有效地信息抽取(比如怎麼樣抽取出網頁上所有的地址抽取出來,「朝陽區奮進路中華道」),搜索引擎通常不需要存儲所有的信息,比如圖片我存來幹嘛...

及時更新(預測這個網頁多久會更新一次)

如你所想,這里每一個點都可以供很多研究者十數年的研究。雖然如此,
「路漫漫其修遠兮,吾將上下而求索」。

所以,不要問怎麼入門,直接上路就好了:)

F. Python爬蟲筆記(二)requests模塊get,post,代理

  import requests

  base_url = 'https://www..com'

  response = requests.get(base_url)

        url=請求url,

        headers =請求頭字典,

        params = 請求參數字典。

        timeout = 超時時長,

    )---->response對象

  伺服器響應包含:狀態行(協議,狀態碼)、響應頭,空行,響應正文

    字元串格式:response.text

    bytes類型:response.content

        response.headers['cookie']

    response.text獲取到的字元串類型的響應正文,

    其實是通過下面的步驟獲取的:

        response.text = response.content.decode(response.encoding)

    產生的原因:編碼和解碼的編碼格式不一致造成的。

        str.encode('編碼')---將字元串按指定編碼解碼成bytes類型

        bytes.decode('編碼')---將bytes類型按指定編碼編碼成字元串。

    a、response.content.decode('頁面正確的編碼格式')

        <meta http-equiv="content-type" content="text/html;charset=utf-8">

    b、找到正確的編碼,設置到response.encoding中

        response.encoding = 正確的編碼

        response.text--->正確的頁面內容。

  a、沒有請求參數的情況下,只需要確定url和headers字典。

  b、get請求是有請求參數。

    在chrome瀏覽器中,下面找query_string_params,

    將裡面的參數封裝到params字典中。

  c、分頁主要是查看每頁中,請求參數頁碼欄位的變化,

  找到變化規律,用for循環就可以做到分頁。

  requests.post(

    url=請求url,

    headers = 請求頭字典,

    data=請求數據字典

    timeout=超時時長

  )---response對象

  post請求一般返回數據都是json數據。

(1)response.json()--->json字元串所對應的python的list或者dict

(2)用 json 模塊。

    json.loads(json_str)---->json_data(python的list或者dict)

    json.mps(json_data)--->json_str

  post請求能否成功,關鍵看**請求參數**。

  如何查找是哪個請求參數在影響數據獲取?

  --->通過對比,找到變化的參數。

  變化參數如何找到參數的生成方式,就是解決這個ajax請求數據獲取的途徑。

**尋找的辦法**有以下幾種:

    (1)寫死在頁面。

    (2)寫在js中。

    (3)請求參數是在之前的一條ajax請求的數據裡面提前獲取好的。

  代理形象的說,他是網路信息中轉站。

  實際上就是在本機和伺服器之間架了一座橋。

  a、突破自身ip訪問現實,可以訪問一些平時訪問不到網站。

  b、訪問一些單位或者團體的資源。

  c、提高訪問速度。代理的伺服器主要作用就是中轉,

  所以一般代理服務裡面都是用內存來進行數據存儲的。

  d、隱藏ip。

    FTP代理伺服器---21,2121

    HTTP代理伺服器---80,8080

    SSL/TLS代理:主要用訪問加密網站。埠:443

    telnet代理 :主要用telnet遠程式控制制,埠一般為23

    高度匿名代理:數據包會原封不動轉化,在服務段看來,就好像一個普通用戶在訪問,做到完全隱藏ip。

    普通匿名代理:數據包會做一些改動,伺服器有可能找到原ip。

    透明代理:不但改動數據,還會告訴服務,是誰訪問的。

    間諜代理:指組織或者個人用於記錄用戶傳輸數據,然後進行研究,監控等目的的代理。   

  proxies = {

    '代理伺服器的類型':'代理ip'

  }

  response = requests.get(proxies = proxies)

  代理伺服器的類型:http,https,ftp

  代理ip:http://ip:port

G. python爬蟲:帶你了解爬蟲應當怎麼做

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理

python2
爬蟲:從網頁上採取數據
爬蟲模塊:urllib,urllib2,re,bs4,requests,scrapy,xlml
1.urllib
2.request
3.bs4
4.正則re
5種數據類型
(1)數字Number
(2)字元串String
(3)列表List[] 中文在可迭代對象就是unicode對象
(4)元組Tuple()
(5)字典Set{}
爬蟲思路:
1.靜態 urlopen打開網頁------獲取源碼read
2.requests(模塊) get/post請求----獲取源碼 text()方法 content()方法(建議)
3.bs4 能夠解析HTML和XML
-- coding:utf-8 –
from bs4 import BeautifulSoup
1
html=「

2018.1.8 14:03


soup=BeautifulSoup(html,『html.parser』) #解析網頁
print soup.div
2從文件中讀取
html=』』
soup=BeautifulSoup(open(『index.html』),『html.parser』)
print soup.prettify()
4.獲取所需信息

H. python中,進行爬蟲抓取怎麼樣能夠使用代理IP

在python中用爬蟲再用到代理伺服器,有兩個辦法,①直接在布署該python爬蟲的電腦上設置代理伺服器,這樣從該電腦上出站的信息就只能由代理伺服器處理了,爬蟲的也不例外,可以搜"windows設置代理伺服器"、"Linux設置代理伺服器"。通常是」設置->網路->連接->代理「。
②若想讓python單獨使用這個代理伺服器,可以搜一下"python proxy config","python配置代理伺服器",有一些庫支持簡單的BM代理伺服器連接。

I. python 爬蟲如何設置爬取一定時間停止

fromtimeimportsleep

n=0
whilen<=100:
print(n)#動作
sleep(60)#暫停60秒
n=n+1

閱讀全文

與python爬蟲模塊怎麼設置相關的資料

熱點內容
cmd查看進程命令 瀏覽:956
手機內怎麼刪除APP 瀏覽:834
魚群和鳥群演算法區別 瀏覽:93
pdf尺寸設置 瀏覽:211
android訪問本地伺服器 瀏覽:512
程序員相親被刪除微信 瀏覽:790
centos命令窗口 瀏覽:596
編譯器有幾個好用的 瀏覽:500
資料庫和網站如何搭載伺服器 瀏覽:154
網路流理論演算法與應用 瀏覽:795
java和matlab 瀏覽:388
釘釘蘋果怎麼下app軟體 瀏覽:832
php網站驗證碼不顯示 瀏覽:859
鋁膜構造柱要設置加密區嗎 瀏覽:344
考駕照怎麼找伺服器 瀏覽:884
阿里雲伺服器如何更換地區 瀏覽:972
手機app調音器怎麼調古箏 瀏覽:503
銳起無盤系統在伺服器上需要設置什麼嗎 瀏覽:19
紅旗計程車app怎麼應聘 瀏覽:979
如何編寫linux程序 瀏覽:870