python爬蟲模塊怎麼設置_python中進行爬蟲抓取怎麼樣能夠使用代理IP

A. 怎麼樣使用python的Scrapy爬蟲框架

有些人問，開發網路爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的？這里按照我的經驗隨便扯淡一下：

上面說的爬蟲，基本可以分3類：

1.分布式爬蟲：Nutch

2.JAVA單機爬蟲：Crawler4j、WebMagic、WebCollector

3. 非JAVA單機爬蟲：scrapy

第一類:分布式爬蟲

爬蟲使用分布式，主要是解決兩個問題：

1)海量URL管理

2)網速

現在比較流行的分布式爬蟲，是Apache的Nutch。但是對於大多數用戶來說，Nutch是這幾類爬蟲里，最不好的選擇，理由如下：

1)Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說，用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新寫一個分布式爬蟲框架了。

2)Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲快。

3)Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套復雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」(parser)這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text文本)。

4)用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。

5)很多人說Nutch2有gora，可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了，這里說的持久化數據，是指將URL信息（URL管理所需要的數據）存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說，URL信息存在哪裡無所謂。

6)Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。如果想用hbase配合nutch（大多數人用nutch2就是為了用hbase)，只能使用0.90版本左右的hbase，相應的就要將hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導作用，Nutch2的教程有兩個，分別是Nutch1.x和Nutch2.x，這個Nutch2.x官網上寫的是可以支持到hbase 0.94。但是實際上，這個Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。

所以，如果你不是要做搜索引擎，盡量不要選擇Nutch作為爬蟲。有些團隊就喜歡跟風，非要選擇Nutch來開發精抽取的爬蟲，其實是沖著Nutch的名氣（Nutch作者是Doug Cutting），當然最後的結果往往是項目延期完成。

如果你是要做搜索引擎，Nutch1.x是一個非常好的選擇。Nutch1.x和solr或者es配合，就可以構成一套非常強大的搜索引擎了。如果非要用Nutch2的話，建議等到Nutch2.3發布再看。目前的Nutch2是一個非常不穩定的版本。

B. 「2022 年」崔慶才 Python3 爬蟲教程 - 代理的使用方法

前面我們介紹了多種請求庫，如 urllib、requests、Selenium、Playwright 等用法，但是沒有統一梳理代理的設置方法，本節我們來針對這些庫來梳理下代理的設置方法。

在本節開始之前，請先根據上一節了解一下代理的基本原理，了解了基本原理之後我們可以更好地理解和學習本節的內容。

另外我們需要先獲取一個可用代理，代理就是 IP 地址和埠的組合，就是 : 這樣的格式。如果代理需要訪問認證，那就還需要額外的用戶名密碼兩個信息。

那怎麼獲取一個可用代理呢？

使用搜索引擎搜索「代理」關鍵字，可以看到許多代理服務網站，網站上會有很多免費或付費代理，比如快代理的免費 HTTP 代理：https://www.kuaidaili.com/free/ 上面就寫了很多免費代理，但是這些免費代理大多數情況下並不一定穩定，所以比較靠譜的方法是購買付費代理。付費代理的各大代理商家都有套餐，數量不用多，穩定可用即可，我們可以自行選購。

另外除了購買付費 HTTP 代理，我們也可以在本機配置一些代理軟體，具體的配置方法可以參考 https://setup.scrape.center/proxy-client，軟體運行之後會在本機創建 HTTP 或 SOCKS 代理服務，所以代理地址一般都是 127.0.0.1: 這樣的格式，不同的軟體用的埠可能不同。

這里我的本機安裝了一部代理軟體，它會在本地 7890 埠上創建 HTTP 代理服務，即代理為 127.0.0.1:7890。另外，該軟體還會在 7891 埠上創建 SOCKS 代理服務，即代理為 127.0.0.1:7891，所以只要設置了這個代理，就可以成功將本機 IP 切換到代理軟體連接的伺服器的 IP 了。

在本章下面的示例里，我使用上述代理來演示其設置方法，你也可以自行替換成自己的可用代理。

設置代理後，測試的網址是 http://httpbin.org/get，訪問該鏈接我們可以得到請求的相關信息，其中返回結果的 origin 欄位就是客戶端的 IP，我們可以根據它來判斷代理是否設置成功，即是否成功偽裝了 IP。

好，接下來我們就來看下各個請求庫的代理設置方法吧。

首先我們以最基礎的 urllib 為例，來看一下代理的設置方法，代碼如下：

運行結果如下：

這里我們需要藉助 ProxyHandler 設置代理，參數是字典類型，鍵名為協議類型，鍵值是代理。注意，此處代理前面需要加上協議，即 http:// 或者 https://，當請求的鏈接是 HTTP 協議的時候，會使用 http 鍵名對應的代理，當請求的鏈接是 HTTPS 協議的時候，會使用 https 鍵名對應的代理。不過這里我們把代理本身設置為了 HTTP 協議，即前綴統一設置為了 http://，所以不論訪問 HTTP 還是 HTTPS 協議的鏈接，都會使用我們配置的 HTTP 協議的代理進行請求。

創建完 ProxyHandler 對象之後，我們需要利用 build_opener 方法傳入該對象來創建一個 Opener，這樣就相當於此 Opener 已經設置好代理了。接下來直接調用 Opener 對象的 open 方法，即可訪問我們所想要的鏈接。

運行輸出結果是一個 JSON，它有一個欄位 origin，標明了客戶端的 IP。驗證一下，此處的 IP 確實為代理的 IP，並不是真實的 IP。這樣我們就成功設置好代理，並可以隱藏真實 IP 了。

如果遇到需要認證的代理，我們可以用如下的方法設置：

這里改變的只是 proxy 變數，只需要在代理前面加入代理認證的用戶名密碼即可，其中 username 就是用戶名，password 為密碼，例如 username 為 foo，密碼為 bar，那麼代理就是 foo:[email protected]:7890。

如果代理是 SOCKS5 類型，那麼可以用如下方式設置代理：

此處需要一個 socks 模塊，可以通過如下命令安裝：

這里需要本地運行一個 SOCKS5 代理，運行在 7891 埠，運行成功之後和上文 HTTP 代理輸出結果是一樣的：

結果的 origin 欄位同樣為代理的 IP，代理設置成功。

對於 requests 來說，代理設置非常簡單，我們只需要傳入 proxies 參數即可。

這里以我本機的代理為例，來看下 requests 的 HTTP 代理設置，代碼如下：

運行結果如下：

和 urllib 一樣，當請求的鏈接是 HTTP 協議的時候，會使用 http 鍵名對應的代理，當請求的鏈接是 HTTPS 協議的時候，會使用 https 鍵名對應的代理，不過這里統一使用了 HTTP 協議的代理。

運行結果中的 origin 若是代理伺服器的 IP，則證明代理已經設置成功。

如果代理需要認證，那麼在代理的前面加上用戶名和密碼即可，代理的寫法就變成如下所示：

這里只需要將 username 和 password 替換即可。

如果需要使用 SOCKS 代理，則可以使用如下方式來設置：

這里我們需要額外安裝一個包 requests[socks]，相關命令如下所示：

運行結果是完全相同的：

另外，還有一種設置方式，即使用 socks 模塊，也需要像上文一樣安裝 socks 庫。這種設置方法如下所示：

使用這種方法也可以設置 SOCKS 代理，運行結果完全相同。相比第一種方法，此方法是全局設置的。我們可以在不同情況下選用不同的方法。

httpx 的用法本身就與 requests 的使用非常相似，所以其也是通過 proxies 參數來設置代理的，不過與 requests 不同的是，proxies 參數的鍵名不能再是 http 或 https，而需要更改為 http:// 或 https://，其他的設置是一樣的。

對於 HTTP 代理來說，設置方法如下：

對於需要認證的代理，也是改下 proxy 的值即可：

這里只需要將 username 和 password 替換即可。

運行結果和使用 requests 是類似的，結果如下：

對於 SOCKS 代理，我們需要安裝 httpx-socks 庫，安裝方法如下：

這樣會同時安裝同步和非同步兩種模式的支持。

對於同步模式，設置方法如下：

對於非同步模式，設置方法如下：

和同步模式不同的是，transport 對象我們用的是 AsyncProxyTransport 而不是 SyncProxyTransport，同時需要將 Client 對象更改為 AsyncClient 對象，其他的不變，運行結果是一樣的。

Selenium 同樣可以設置代理，這里以 Chrome 為例來介紹其設置方法。

對於無認證的代理，設置方法如下：

運行結果如下：

代理設置成功，origin 同樣為代理 IP 的地址。

如果代理是認證代理，則設置方法相對比較繁瑣，具體如下所示：

這里需要在本地創建一個 manifest.json 配置文件和 background.js 腳本來設置認證代理。運行代碼之後，本地會生成一個 proxy_auth_plugin.zip 文件來保存當前配置。

運行結果和上例一致，origin 同樣為代理 IP。

SOCKS 代理的設置也比較簡單，把對應的協議修改為 socks5 即可，如無密碼認證的代理設置方法為：

運行結果是一樣的。

對於 aiohttp 來說，我們可以通過 proxy 參數直接設置。HTTP 代理設置如下：

如果代理有用戶名和密碼，像 requests 一樣，把 proxy 修改為如下內容：

這里只需要將 username 和 password 替換即可。

對於 SOCKS 代理，我們需要安裝一個支持庫 aiohttp-socks，其安裝命令如下：

我們可以藉助於這個庫的 ProxyConnector 來設置 SOCKS 代理，其代碼如下：

運行結果是一樣的。

另外，這個庫還支持設置 SOCKS4、HTTP 代理以及對應的代理認證，可以參考其官方介紹。

對於 Pyppeteer 來說，由於其默認使用的是類似 Chrome 的 Chromium 瀏覽器，因此其設置方法和 Selenium 的 Chrome 一樣，如 HTTP 無認證代理設置方法都是通過 args 來設置的，實現如下：

運行結果如下：

同樣可以看到設置成功。

SOCKS 代理也一樣，只需要將協議修改為 socks5 即可，代碼實現如下：

運行結果也是一樣的。

相對 Selenium 和 Pyppeteer 來說，Playwright 的代理設置更加方便，其預留了一個 proxy 參數，可以在啟動 Playwright 的時候設置。

對於 HTTP 代理來說，可以這樣設置：

在調用 launch 方法的時候，我們可以傳一個 proxy 參數，是一個字典。字典有一個必填的欄位叫做 server，這里我們可以直接填寫 HTTP 代理的地址即可。

運行結果如下：

對於 SOCKS 代理，設置方法也是完全一樣的，我們只需要把 server 欄位的值換成 SOCKS 代理的地址即可：

運行結果和剛才也是完全一樣的。

對於有用戶名和密碼的代理，Playwright 的設置也非常簡單，我們只需要在 proxy 參數額外設置 username 和 password 欄位即可，假如用戶名和密碼分別是 foo 和 bar，則設置方法如下：

這樣我們就能非常方便地為 Playwright 實現認證代理的設置。

以上我們就總結了各個請求庫的代理使用方式，各種庫的設置方法大同小異，學會了這些方法之後，以後如果遇到封 IP 的問題，我們可以輕鬆通過加代理的方式來解決。

本節代碼：https://github.com/Python3WebSpider/ProxyTest

C. 如何入門 Python 爬蟲

Python入門程度的基礎很簡單：
1、簡單的python語法，不需要什麼很深的東西
2、請求庫用法（requests、aiohttp等）
3、簡單的抓包/摳URL
4、xpath、正則表達式的使用，且能在不用生成工具的情況下自己寫出語句提取數據
以上四點已經足夠讓你爬一些簡單的網站了，但僅僅是這個程度而已的話，就還沒那些傻瓜式爬蟲工具強呢。你還需要JavaScript/Android/iOS逆向知識（核心，雜七雜八的那些這里不一一列舉，太多了），用於破加密請求參數、反爬等各種阻止你獲取到數據的東西。

D. python爬蟲項目實戰：爬取用戶的所有信息，如性別、年齡等

python爬蟲項目實戰：
爬取糗事網路用戶的所有信息，包括用戶名、性別、年齡、內容等等。

10個步驟實現項目功能，下面開始實例講解：
1.導入模塊
import re
import urllib.request
from bs4 import BeautifulSoup
2.添加頭文件，防止爬取過程被拒絕鏈接
def qiuShi(url,page):
################### 模擬成高仿度瀏覽器的行為 ##############

heads ={
'Connection':'keep-alive',
'Accept-Language':'zh-CN,zh;q=0.9',
'Accept':'text/html,application/xhtml+xml,application/xml;
q=0.9,image/webp,image/apng, / ;q=0.8',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}
headall = []
for key,value in heads.items():
items = (key,value)

headall.append(items)

opener = urllib.request.build_opener()

opener.addheaders = headall

urllib.request.install_opener(opener)

data = opener.open(url).read().decode()

################## end ########################################
3.創建soup解析器對象
soup = BeautifulSoup(data,'lxml')
x = 0
4.開始使用BeautifulSoup4解析器提取用戶名信息
############### 獲取用戶名 ########################
name = []

unames = soup.find_all('h2')

for uname in unames:

name.append(uname.get_text())

#################end#############################
5.提取發表的內容信息
############## 發表的內容 #########################
cont = []
data4 = soup.find_all('div',class_='content')

data4 = str(data4)

soup3 = BeautifulSoup(data4,'lxml')
contents = soup3.find_all('span')
for content in contents:

cont.append(content.get_text())

##############end####################################
6.提取搞笑指數
#################搞笑指數##########################
happy = []

data2 = soup.find_all('span',class_="stats-vote")

data2 = str(data2) # 將列表轉換成字元串形式才可以使用

soup1 = BeautifulSoup(data2,'lxml')
happynumbers = soup1.find_all('i',class_="number")
for happynumber in happynumbers:

happy.append(happynumber.get_text())

##################end#############################
7.提取評論數
############## 評論數 ############################
comm = []
data3 = soup.find_all('a',class_='qiushi_comments')
data3 = str(data3)

soup2 = BeautifulSoup(data3,'lxml')
comments = soup2.find_all('i',class_="number")
for comment in comments:

comm.append(comment.get_text())
############end#####################################
8.使用正則表達式提取性別和年齡
######## 獲取性別和年齡 ##########################

pattern1 = '<div class="articleGender (w ?)Icon">(d ?)</div>'
sexages = re.compile(pattern1).findall(data)

9.設置用戶所有信息輸出的格局設置
################## 批量輸出用戶的所以個人信息 #################
print()
for sexage in sexages:
sa = sexage
print(' ' 17, '= = 第', page, '頁-第', str(x+1) + '個用戶 = = ',' ' 17)

print('【用戶名】：',name[x],end='')

print('【性別】：',sa[0],' 【年齡】：',sa[1])

print('【內容】：',cont[x])

print('【搞笑指數】：',happy[x],' 【評論數】：',comm[x])
print(' ' 25,' 三八分割線 ',' ' 25)
x += 1
###################end##########################
10.設置循環遍歷爬取13頁的用戶信息
for i in range(1,14):

url = ' https://www.qiushike.com/8hr/page/'+str(i)+'/'
qiuShi(url,i)
運行結果，部分截圖：

E. 如何用Python做爬蟲

1）首先你要明白爬蟲怎樣工作。

想像你是一隻蜘蛛，現在你被放到了互聯「網」上。那麼，你需要把所有的網頁都看一遍。怎麼辦呢？沒問題呀，你就隨便從某個地方開始，比如說人民日報的首頁，這個叫initial pages，用$表示吧。

在人民日報的首頁，你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了「國內新聞」那個頁面。太好了，這樣你就已經爬完了倆頁面（首頁和國內新聞）！暫且不用管爬下來的頁面怎麼處理的，你就想像你把這個頁面完完整整抄成了個html放到了你身上。

突然你發現，在國內新聞這個頁面上，有一個鏈接鏈回「首頁」。作為一隻聰明的蜘蛛，你肯定知道你不用爬回去的吧，因為你已經看過了啊。所以，你需要用你的腦子，存下你已經看過的頁面地址。這樣，每次看到一個可能需要爬的新鏈接，你就先查查你腦子里是不是已經去過這個頁面地址。如果去過，那就別去了。

好的，理論上如果所有的頁面可以從initial page達到的話，那麼可以證明你一定可以爬完所有的網頁。

那麼在python里怎麼實現呢？
很簡單

import Queue

initial_page = "初始化頁"

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直進行直到海枯石爛
if url_queue.size()>0:
current_url = url_queue.get() #拿出隊例中第一個的url
store(current_url) #把這個url代表的網頁存儲好
for next_url in extract_urls(current_url): #提取把這個url里鏈向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break

寫得已經很偽代碼了。

所有的爬蟲的backbone都在這里，下面分析一下為什麼爬蟲事實上是個非常復雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。

2）效率
如果你直接加工一下上面的代碼直接運行的話，你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。

問題出在哪呢？需要爬的網頁實在太多太多了，而上面的代碼太慢太慢了。設想全網有N個網站，那麼分析一下判重的復雜度就是N*log(N)，因為所有網頁要遍歷一次，而每次判重用set的話需要log(N)的復雜度。OK，OK，我知道python的set實現是hash——不過這樣還是太慢了，至少內存使用效率不高。

通常的判重做法是怎樣呢？Bloom Filter. 簡單講它仍然是一種hash的方法，但是它的特點是，它可以使用固定的內存（不隨url的數量而增長）以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐，它的唯一問題在於，如果這個url不在set中，BF可以100%確定這個url沒有看過。但是如果這個url在set中，它會告訴你：這個url應該已經出現過，不過我有2%的不確定性。注意這里的不確定性在你分配的內存足夠大的時候，可以變得很小很少。一個簡單的教程:Bloom Filters by Example

注意到這個特點，url如果被看過，那麼可能以小概率重復看一看（沒關系，多看看不會累死）。但是如果沒被看過，一定會被看一下（這個很重要，不然我們就要漏掉一些網頁了！）。 [IMPORTANT: 此段有問題，請暫時略過]

好，現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大，只要你的機器下載網頁的速度是瓶頸的話，那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧！當然，我們假設每台機子都已經進了最大的效率——使用多線程（python的話，多進程吧）。

3）集群化抓取
爬取豆瓣的時候，我總共用了100多台機器晝夜不停地運行了一個月。想像如果只用一台機子你就得運行100個月了...

那麼，假設你現在有100台機器可以用，怎麼用python實現一個分布式的爬取演算法呢？

我們把這100台中的99台運算能力較小的機器叫作slave，另外一台較大的機器叫作master，那麼回顧上面代碼中的url_queue，如果我們能把這個queue放到這台master機器上，所有的slave都可以通過網路跟master聯通，每當一個slave完成下載一個網頁，就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁，就把這個網頁上所有的鏈接送到master的queue里去。同樣，bloom filter也放到master上，但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里，而被訪問過的url放到運行在master上的Redis里，這樣保證所有操作都是O(1)。（至少平攤是O(1)，Redis的訪問效率見:LINSERT – Redis)

考慮如何用python實現：
在各台slave上裝好scrapy，那麼各台機子就變成了一台有抓取能力的slave，在master上裝好Redis和rq用作分布式隊列。

代碼於是寫成

#slave.py

current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)

store(current_url);
send_to_master(to_send)

#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()

initial_pages = "www.renmingribao.com"

while(True):
if request == 'GET':
if distributed_queue.size()>0:
send(distributed_queue.get())
else:
break
elif request == 'POST':
bf.put(request.url)

好的，其實你能想到，有人已經給你寫好了你需要的：darkrho/scrapy-redis · GitHub

4）展望及後處理
雖然上面用很多「簡單」，但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。

但是如果附加上你需要這些後續處理，比如

有效地存儲（資料庫應該怎樣安排）

有效地判重（這里指網頁判重，咱可不想把人民日報和抄襲它的大民日報都爬一遍）

有效地信息抽取（比如怎麼樣抽取出網頁上所有的地址抽取出來，「朝陽區奮進路中華道」），搜索引擎通常不需要存儲所有的信息，比如圖片我存來幹嘛...

及時更新（預測這個網頁多久會更新一次）

如你所想，這里每一個點都可以供很多研究者十數年的研究。雖然如此，
「路漫漫其修遠兮,吾將上下而求索」。

所以，不要問怎麼入門，直接上路就好了：）

F. Python爬蟲筆記（二）requests模塊get，post，代理

import requests

base_url = 'https://www..com'

response = requests.get(base_url)

url=請求url，

headers =請求頭字典，

params = 請求參數字典。

timeout = 超時時長，

)---->response對象

伺服器響應包含：狀態行（協議，狀態碼）、響應頭，空行，響應正文

字元串格式：response.text

bytes類型：response.content

response.headers['cookie']

response.text獲取到的字元串類型的響應正文，

其實是通過下面的步驟獲取的：

response.text = response.content.decode(response.encoding)

產生的原因：編碼和解碼的編碼格式不一致造成的。

str.encode('編碼')---將字元串按指定編碼解碼成bytes類型

bytes.decode('編碼')---將bytes類型按指定編碼編碼成字元串。

a、response.content.decode('頁面正確的編碼格式')

<meta http-equiv="content-type" content="text/html;charset=utf-8">

b、找到正確的編碼，設置到response.encoding中

response.encoding = 正確的編碼

response.text--->正確的頁面內容。

a、沒有請求參數的情況下，只需要確定url和headers字典。

b、get請求是有請求參數。

在chrome瀏覽器中，下面找query_string_params,

將裡面的參數封裝到params字典中。

c、分頁主要是查看每頁中，請求參數頁碼欄位的變化，

找到變化規律，用for循環就可以做到分頁。

requests.post(

url=請求url，

headers = 請求頭字典，

data=請求數據字典

timeout=超時時長

)---response對象

post請求一般返回數據都是json數據。

（1）response.json()--->json字元串所對應的python的list或者dict

（2）用 json 模塊。

json.loads(json_str)---->json_data(python的list或者dict)

json.mps(json_data)--->json_str

post請求能否成功，關鍵看**請求參數**。

如何查找是哪個請求參數在影響數據獲取？

--->通過對比，找到變化的參數。

變化參數如何找到參數的生成方式，就是解決這個ajax請求數據獲取的途徑。

**尋找的辦法**有以下幾種：

（1）寫死在頁面。

（2）寫在js中。

（3）請求參數是在之前的一條ajax請求的數據裡面提前獲取好的。

代理形象的說，他是網路信息中轉站。

實際上就是在本機和伺服器之間架了一座橋。

a、突破自身ip訪問現實，可以訪問一些平時訪問不到網站。

b、訪問一些單位或者團體的資源。

c、提高訪問速度。代理的伺服器主要作用就是中轉，

所以一般代理服務裡面都是用內存來進行數據存儲的。

d、隱藏ip。

FTP代理伺服器---21,2121

HTTP代理伺服器---80,8080

SSL/TLS代理：主要用訪問加密網站。埠：443

telnet代理：主要用telnet遠程式控制制，埠一般為23

高度匿名代理：數據包會原封不動轉化，在服務段看來，就好像一個普通用戶在訪問，做到完全隱藏ip。

普通匿名代理：數據包會做一些改動，伺服器有可能找到原ip。

透明代理：不但改動數據，還會告訴服務，是誰訪問的。

間諜代理：指組織或者個人用於記錄用戶傳輸數據，然後進行研究，監控等目的的代理。

proxies = {

'代理伺服器的類型':'代理ip'

}

response = requests.get(proxies = proxies)

代理伺服器的類型:http,https,ftp

代理ip:http://ip:port

G. python爬蟲：帶你了解爬蟲應當怎麼做

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理

python2
爬蟲：從網頁上採取數據
爬蟲模塊：urllib,urllib2,re,bs4,requests,scrapy,xlml
1.urllib
2.request
3.bs4
4.正則re
5種數據類型
(1)數字Number
(2)字元串String
(3)列表List[] 中文在可迭代對象就是unicode對象
(4)元組Tuple()
(5)字典Set{}
爬蟲思路：
1.靜態 urlopen打開網頁------獲取源碼read
2.requests(模塊) get/post請求----獲取源碼 text()方法 content()方法(建議)
3.bs4 能夠解析HTML和XML
-- coding:utf-8 –
from bs4 import BeautifulSoup
1
html=「

2018.1.8 14:03

」
soup=BeautifulSoup(html,『html.parser』) #解析網頁
print soup.div
2從文件中讀取
html=』』
soup=BeautifulSoup(open(『index.html』),『html.parser』)
print soup.prettify()
4.獲取所需信息

H. python中，進行爬蟲抓取怎麼樣能夠使用代理IP

在python中用爬蟲再用到代理伺服器，有兩個辦法，①直接在布署該python爬蟲的電腦上設置代理伺服器，這樣從該電腦上出站的信息就只能由代理伺服器處理了，爬蟲的也不例外，可以搜"windows設置代理伺服器"、"Linux設置代理伺服器"。通常是」設置->網路->連接->代理「。
②若想讓python單獨使用這個代理伺服器，可以搜一下"python proxy config"，"python配置代理伺服器"，有一些庫支持簡單的BM代理伺服器連接。

I. python 爬蟲如何設置爬取一定時間停止

fromtimeimportsleep

n=0
whilen<=100:
print(n)#動作
sleep(60)#暫停60秒
n=n+1

導航:首頁 > 編程語言 > python爬蟲模塊怎麼設置

python爬蟲模塊怎麼設置

與python爬蟲模塊怎麼設置相關的資料