導航:首頁 > 編程語言 > pythonspider教程

pythonspider教程

發布時間:2023-03-04 02:35:03

python爬蟲什麼教程最好

可以看這個教程:網頁鏈接

此教程 通過三個爬蟲案例來使學員認識Scrapy框架、了解Scrapy的架構、熟悉Scrapy各模塊。

此教程的大致內容:

1、Scrapy的簡介。

主要知識點:Scrapy的架構和運作流程。

2、搭建開發環境:

主要知識點:Windows及Linux環境下Scrapy的安裝。

3、Scrapy Shell以及Scrapy Selectors的使用。

4、使用Scrapy完成網站信息的爬取。

主要知識點:創建Scrapy項目(scrapy startproject)、定義提取的結構化數據(Item)、編寫爬取網站的Spider並提取出結構化數據(Item)、編寫Item Pipelines來存儲提取到的Item(即結構化數據)。

❷ Python編程基礎之(五)Scrapy爬蟲框架

經過前面四章的學習,我們已經可以使用Requests庫、Beautiful Soup庫和Re庫,編寫基本的Python爬蟲程序了。那麼這一章就來學習一個專業的網路爬蟲框架--Scrapy。沒錯,是框架,而不是像前面介紹的函數功能庫。

Scrapy是一個快速、功能強大的網路爬蟲框架。

可能大家還不太了解什麼是框架,爬蟲框架其實是實現爬蟲功能的一個軟體結構和功能組件的集合。

簡而言之, Scrapy就是一個爬蟲程序的半成品,可以幫助用戶實現專業的網路爬蟲。

使用Scrapy框架,不需要你編寫大量的代碼,Scrapy已經把大部分工作都做好了,允許你調用幾句代碼便自動生成爬蟲程序,可以節省大量的時間。

當然,框架所生成的代碼基本是一致的,如果遇到一些特定的爬蟲任務時,就不如自己使用Requests庫搭建來的方便了。

PyCharm安裝

測試安裝:

出現框架版本說明安裝成功。

掌握Scrapy爬蟲框架的結構是使用好Scrapy的重中之重!

先上圖:

整個結構可以簡單地概括為: 「5+2」結構和3條數據流

5個主要模塊(及功能):

(1)控制所有模塊之間的數據流。

(2)可以根據條件觸發事件。

(1)根據請求下載網頁。

(1)對所有爬取請求進行調度管理。

(1)解析DOWNLOADER返回的響應--response。

(2)產生爬取項--scraped item。

(3)產生額外的爬取請求--request。

(1)以流水線方式處理SPIDER產生的爬取項。

(2)由一組操作順序組成,類似流水線,每個操作是一個ITEM PIPELINES類型。

(3)清理、檢查和查重爬取項中的HTML數據並將數據存儲到資料庫中。

2個中間鍵:

(1)對Engine、Scheler、Downloader之間進行用戶可配置的控制。

(2)修改、丟棄、新增請求或響應。

(1)對請求和爬取項進行再處理。

(2)修改、丟棄、新增請求或爬取項。

3條數據流:

(1):圖中數字 1-2

1:Engine從Spider處獲得爬取請求--request。

2:Engine將爬取請求轉發給Scheler,用於調度。

(2):圖中數字 3-4-5-6

3:Engine從Scheler處獲得下一個要爬取的請求。

4:Engine將爬取請求通過中間件發送給Downloader。

5:爬取網頁後,Downloader形成響應--response,通過中間件發送給Engine。

6:Engine將收到的響應通過中間件發送給Spider處理。

(3):圖中數字 7-8-9

7:Spider處理響應後產生爬取項--scraped item。

8:Engine將爬取項發送給Item Pipelines。

9:Engine將爬取請求發送給Scheler。

任務處理流程:從Spider的初始爬取請求開始爬取,Engine控制各模塊數據流,不間斷從Scheler處獲得爬取請求,直至請求為空,最後到Item Pipelines存儲數據結束。

作為用戶,只需配置好Scrapy框架的Spider和Item Pipelines,也就是數據流的入口與出口,便可完成一個爬蟲程序的搭建。Scrapy提供了簡單的爬蟲命令語句,幫助用戶一鍵配置剩餘文件,那我們便來看看有哪些好用的命令吧。

Scrapy採用命令行創建和運行爬蟲

PyCharm打開Terminal,啟動Scrapy:

Scrapy基本命令行格式:

具體常用命令如下:

下面用一個例子來學習一下命令的使用:

1.建立一個Scrapy爬蟲工程,在已啟動的Scrapy中繼續輸入:

執行該命令,系統會在PyCharm的工程文件中自動創建一個工程,命名為pythonDemo。

2.產生一個Scrapy爬蟲,以教育部網站為例http://www.moe.gov.cn:

命令生成了一個名為demo的spider,並在Spiders目錄下生成文件demo.py。

命令僅用於生成demo.py文件,該文件也可以手動生成。

觀察一下demo.py文件:

3.配置產生的spider爬蟲,也就是demo.py文件:

4.運行爬蟲,爬取網頁:

如果爬取成功,會發現在pythonDemo下多了一個t20210816_551472.html的文件,我們所爬取的網頁內容都已經寫入該文件了。

以上就是Scrapy框架的簡單使用了。

Request對象表示一個HTTP請求,由Spider生成,由Downloader執行。

Response對象表示一個HTTP響應,由Downloader生成,有Spider處理。

Item對象表示一個從HTML頁面中提取的信息內容,由Spider生成,由Item Pipelines處理。Item類似於字典類型,可以按照字典類型來操作。

❸ 「2022 年」崔慶才 Python3 爬蟲教程 - 代理的使用方法

前面我們介紹了多種請求庫,如 urllib、requests、Selenium、Playwright 等用法,但是沒有統一梳理代理的設置方法,本節我們來針對這些庫來梳理下代理的設置方法。

在本節開始之前,請先根據上一節了解一下代理的基本原理,了解了基本原理之後我們可以更好地理解和學習本節的內容。

另外我們需要先獲取一個可用代理,代理就是 IP 地址和埠的組合,就是 : 這樣的格式。如果代理需要訪問認證,那就還需要額外的用戶名密碼兩個信息。

那怎麼獲取一個可用代理呢?

使用搜索引擎搜索 「代理」 關鍵字,可以看到許多代理服務網站,網站上會有很多免費或付費代理,比如快代理的免費 HTTP 代理:https://www.kuaidaili.com/free/ 上面就寫了很多免費代理,但是這些免費代理大多數情況下並不一定穩定,所以比較靠譜的方法是購買付費代理。付費代理的各大代理商家都有套餐,數量不用多,穩定可用即可,我們可以自行選購。

另外除了購買付費 HTTP 代理,我們也可以在本機配置一些代理軟體,具體的配置方法可以參考 https://setup.scrape.center/proxy-client,軟體運行之後會在本機創建 HTTP 或 SOCKS 代理服務,所以代理地址一般都是 127.0.0.1: 這樣的格式,不同的軟體用的埠可能不同。

這里我的本機安裝了一部代理軟體,它會在本地 7890 埠上創建 HTTP 代理服務,即代理為 127.0.0.1:7890。另外,該軟體還會在 7891 埠上創建 SOCKS 代理服務,即代理為 127.0.0.1:7891,所以只要設置了這個代理,就可以成功將本機 IP 切換到代理軟體連接的伺服器的 IP 了。

在本章下面的示例里,我使用上述代理來演示其設置方法,你也可以自行替換成自己的可用代理。

設置代理後,測試的網址是 http://httpbin.org/get,訪問該鏈接我們可以得到請求的相關信息,其中返回結果的 origin 欄位就是客戶端的 IP,我們可以根據它來判斷代理是否設置成功,即是否成功偽裝了 IP。

好,接下來我們就來看下各個請求庫的代理設置方法吧。

首先我們以最基礎的 urllib 為例,來看一下代理的設置方法,代碼如下:

運行結果如下:

這里我們需要藉助 ProxyHandler 設置代理,參數是字典類型,鍵名為協議類型,鍵值是代理。注意,此處代理前面需要加上協議,即 http:// 或者 https://,當請求的鏈接是 HTTP 協議的時候,會使用 http 鍵名對應的代理,當請求的鏈接是 HTTPS 協議的時候,會使用 https 鍵名對應的代理。不過這里我們把代理本身設置為了 HTTP 協議,即前綴統一設置為了 http://,所以不論訪問 HTTP 還是 HTTPS 協議的鏈接,都會使用我們配置的 HTTP 協議的代理進行請求。

創建完 ProxyHandler 對象之後,我們需要利用 build_opener 方法傳入該對象來創建一個 Opener,這樣就相當於此 Opener 已經設置好代理了。接下來直接調用 Opener 對象的 open 方法,即可訪問我們所想要的鏈接。

運行輸出結果是一個 JSON,它有一個欄位 origin,標明了客戶端的 IP。驗證一下,此處的 IP 確實為代理的 IP,並不是真實的 IP。這樣我們就成功設置好代理,並可以隱藏真實 IP 了。

如果遇到需要認證的代理,我們可以用如下的方法設置:

這里改變的只是 proxy 變數,只需要在代理前面加入代理認證的用戶名密碼即可,其中 username 就是用戶名,password 為密碼,例如 username 為 foo,密碼為 bar,那麼代理就是 foo:[email protected]:7890。

如果代理是 SOCKS5 類型,那麼可以用如下方式設置代理:

此處需要一個 socks 模塊,可以通過如下命令安裝:

這里需要本地運行一個 SOCKS5 代理,運行在 7891 埠,運行成功之後和上文 HTTP 代理輸出結果是一樣的:

結果的 origin 欄位同樣為代理的 IP,代理設置成功。

對於 requests 來說,代理設置非常簡單,我們只需要傳入 proxies 參數即可。

這里以我本機的代理為例,來看下 requests 的 HTTP 代理設置,代碼如下:

運行結果如下:

和 urllib 一樣,當請求的鏈接是 HTTP 協議的時候,會使用 http 鍵名對應的代理,當請求的鏈接是 HTTPS 協議的時候,會使用 https 鍵名對應的代理,不過這里統一使用了 HTTP 協議的代理。

運行結果中的 origin 若是代理伺服器的 IP,則證明代理已經設置成功。

如果代理需要認證,那麼在代理的前面加上用戶名和密碼即可,代理的寫法就變成如下所示:

這里只需要將 username 和 password 替換即可。

如果需要使用 SOCKS 代理,則可以使用如下方式來設置:

這里我們需要額外安裝一個包 requests[socks],相關命令如下所示:

運行結果是完全相同的:

另外,還有一種設置方式,即使用 socks 模塊,也需要像上文一樣安裝 socks 庫。這種設置方法如下所示:

使用這種方法也可以設置 SOCKS 代理,運行結果完全相同。相比第一種方法,此方法是全局設置的。我們可以在不同情況下選用不同的方法。

httpx 的用法本身就與 requests 的使用非常相似,所以其也是通過 proxies 參數來設置代理的,不過與 requests 不同的是,proxies 參數的鍵名不能再是 http 或 https,而需要更改為 http:// 或 https://,其他的設置是一樣的。

對於 HTTP 代理來說,設置方法如下:

對於需要認證的代理,也是改下 proxy 的值即可:

這里只需要將 username 和 password 替換即可。

運行結果和使用 requests 是類似的,結果如下:

對於 SOCKS 代理,我們需要安裝 httpx-socks 庫,安裝方法如下:

這樣會同時安裝同步和非同步兩種模式的支持。

對於同步模式,設置方法如下:

對於非同步模式,設置方法如下:

和同步模式不同的是,transport 對象我們用的是 AsyncProxyTransport 而不是 SyncProxyTransport,同時需要將 Client 對象更改為 AsyncClient 對象,其他的不變,運行結果是一樣的。

Selenium 同樣可以設置代理,這里以 Chrome 為例來介紹其設置方法。

對於無認證的代理,設置方法如下:

運行結果如下:

代理設置成功,origin 同樣為代理 IP 的地址。

如果代理是認證代理,則設置方法相對比較繁瑣,具體如下所示:

這里需要在本地創建一個 manifest.json 配置文件和 background.js 腳本來設置認證代理。運行代碼之後,本地會生成一個 proxy_auth_plugin.zip 文件來保存當前配置。

運行結果和上例一致,origin 同樣為代理 IP。

SOCKS 代理的設置也比較簡單,把對應的協議修改為 socks5 即可,如無密碼認證的代理設置方法為:

運行結果是一樣的。

對於 aiohttp 來說,我們可以通過 proxy 參數直接設置。HTTP 代理設置如下:

如果代理有用戶名和密碼,像 requests 一樣,把 proxy 修改為如下內容:

這里只需要將 username 和 password 替換即可。

對於 SOCKS 代理,我們需要安裝一個支持庫 aiohttp-socks,其安裝命令如下:

我們可以藉助於這個庫的 ProxyConnector 來設置 SOCKS 代理,其代碼如下:

運行結果是一樣的。

另外,這個庫還支持設置 SOCKS4、HTTP 代理以及對應的代理認證,可以參考其官方介紹。

對於 Pyppeteer 來說,由於其默認使用的是類似 Chrome 的 Chromium 瀏覽器,因此其設置方法和 Selenium 的 Chrome 一樣,如 HTTP 無認證代理設置方法都是通過 args 來設置的,實現如下:

運行結果如下:

同樣可以看到設置成功。

SOCKS 代理也一樣,只需要將協議修改為 socks5 即可,代碼實現如下:

運行結果也是一樣的。

相對 Selenium 和 Pyppeteer 來說,Playwright 的代理設置更加方便,其預留了一個 proxy 參數,可以在啟動 Playwright 的時候設置。

對於 HTTP 代理來說,可以這樣設置:

在調用 launch 方法的時候,我們可以傳一個 proxy 參數,是一個字典。字典有一個必填的欄位叫做 server,這里我們可以直接填寫 HTTP 代理的地址即可。

運行結果如下:

對於 SOCKS 代理,設置方法也是完全一樣的,我們只需要把 server 欄位的值換成 SOCKS 代理的地址即可:

運行結果和剛才也是完全一樣的。

對於有用戶名和密碼的代理,Playwright 的設置也非常簡單,我們只需要在 proxy 參數額外設置 username 和 password 欄位即可,假如用戶名和密碼分別是 foo 和 bar,則設置方法如下:

這樣我們就能非常方便地為 Playwright 實現認證代理的設置。

以上我們就總結了各個請求庫的代理使用方式,各種庫的設置方法大同小異,學會了這些方法之後,以後如果遇到封 IP 的問題,我們可以輕鬆通過加代理的方式來解決。

本節代碼:https://github.com/Python3WebSpider/ProxyTest

❹ 零基礎學python(1)——爬取房天下網站信息

一、認識網頁

       網頁分為三個部分:HTML(結構)、CSS(樣式)、JavaScript(功能)。

二、爬取網站信息入門

1、Soup = BeautifulSoup (html, 'lxml'),使用beautifulsoup來解析網頁。

2、使用 CSS selector來復制網頁元素的位置。

三、爬取房天下網站信息 

1、導入requests和beautifulsoup

2、定義函數spider_ftx,把所需要爬取的信息都定義出來

3、調用函數spider_ftx

4、翻頁爬取二手房信息

     由於每頁最多隻能顯示40條信息,觀察每一頁網址的變化規律,寫一個循環調用的語句,把全部100頁的信息全都爬取下來。

四、小結:

     目前只能爬取到網站的100頁信息,網站為了反爬,設置了可瀏覽的頁面量100。要想爬取網站的所有信息,可以通過分類去獲取,但是如何用python實現呢,請看下集。

閱讀全文

與pythonspider教程相關的資料

熱點內容
java多類繼承 瀏覽:157
怎麼用多玩我的世界連接伺服器地址 瀏覽:481
為什麼華為手機比安卓流暢 瀏覽:175
javamap多線程 瀏覽:226
卡西歐app怎麼改時間 瀏覽:841
jquery壓縮圖片 瀏覽:970
用紙筒做解壓東西 瀏覽:236
神奇寶貝伺服器如何tp 瀏覽:242
雲伺服器支持退貨嗎 瀏覽:277
貸款等額本息演算法 瀏覽:188
根伺服器地址配置 瀏覽:499
單片機是軟體還是硬體 瀏覽:624
vivo手機怎麼看編譯編號 瀏覽:320
塑鋼扣條演算法 瀏覽:301
linux應用程序安裝 瀏覽:414
linux怎麼查找命令 瀏覽:431
安卓12原生和非原生是什麼意思 瀏覽:277
四川廣電怎麼安裝app 瀏覽:6
大話西遊伺服器是什麼意思 瀏覽:775
誇克解壓壓縮文件 瀏覽:915