pythonselenium抓取_從零開始學python爬蟲（八）：selenium提取數據和其他使用方法

㈠ python爬蟲怎麼做

大到各類搜索引擎，小到日常數據採集，都離不開網路爬蟲。爬蟲的基本原理很簡單，遍歷網路中網頁，抓取感興趣的數據內容。這篇文章會從零開始介紹如何編寫一個網路爬蟲抓取數據做告宏，然後會一步步逐漸完善爬蟲的抓取功能。

工具安裝

我們需要安裝python，python的requests和BeautifulSoup庫。我們用Requests庫用抓取網頁的內容，使用BeautifulSoup庫來從網頁中提取數據。

安裝python

運行pipinstallrequests

運行pipinstallBeautifulSoup

抓取網頁

完成必要工具安裝後，我們正式開始編寫我們的爬蟲。我們的第一個任務是要抓取所有豆瓣上的圖書信息。我們以/subject/26986954/為例，首先看看開如何抓取網頁的內容。

使用python的requests提供的get()方法我們可以非常簡單的獲取的指定網頁的內純冊容,代碼如下：

提取內容

抓取到網頁的內容後，我們要做的就是提取出我們想要的內容。在我們的第一個例子中，我們只需要提取書名。首先我們導入BeautifulSoup庫，使用BeautifulSoup我們可以非常簡單的提取網頁的特定內容。

連續抓取網頁

到目前為止，我們已經可以抓取單個網頁的內容了，現在讓我們看看如何抓取整個網站的內容。我們知道網頁之間是通過超鏈接互相連接在一起的，通過鏈接我們可以訪問整個網路。所以我們可以從每個頁面提取出包含指向其它網頁的鏈接，然後重復的對新鏈接進行抓取。

通過以上幾步我們就可以寫出一個最原始的爬蟲。在理解了爬蟲原理的基礎上，我們可以進一步對爬蟲進行完善。

寫過一個系列關於爬蟲的文章：/i6567289381185389064/。感興趣的可以前往查看。

Python基本環境的搭建，爬蟲的基本原理以及爬蟲的原型

Python爬蟲入門(第1部分)

如何使用BeautifulSoup對網頁內容進行提取

Python爬蟲入門(第2部分)

爬蟲運行時數據的存儲數據，以SQLite和MySQL作為示例

Python爬蟲入門(第3部分)

使用seleniumwebdriver對動態網頁進行抓取

Python爬蟲入門(第4部分)

討論了如何處理網站的反爬蟲策略

Python爬友如蟲入門(第5部分)

對Python的Scrapy爬蟲框架做了介紹，並簡單的演示了如何在Scrapy下進行開發

Python爬蟲入門(第6部分)

㈡從零開始學python爬蟲（八）：selenium提取數據和其他使用方法

知識點：

知識點：了解 driver對象的常用屬性和方法

注意：最新版本的selenium已經取消了這種格式，取而代之的是：

你要先導入：

然後再：

知識點：掌握 driver對象定位標簽元素獲取標簽對象的方法

代碼實現，如下，獲取騰訊新聞首頁的新聞標簽的內容。

知識點：掌握元素對象的操作方法

參考代碼示例：

知識點：掌握 selenium控制標簽頁的切換

知識點：掌握 selenium控制frame標簽的切換

知識點：掌握利用selenium獲取cookie的方法

知識點：掌握 selenium控制瀏覽器執行js代碼的方法

知識點：掌握手動實現頁面等待

知識點：掌握 selenium開啟無界面模式

知識點：了解 selenium使用代理ip

知識點：了解 selenium替換user-agent

㈢ Python爬蟲實戰（3）selenium完成瀑布流數據爬取

爬取時間：2021/01/27
系統環境：Windows 10
所用工具：Jupyter NotebookPython 3.0
涉及的庫：selenium

蛋肥想法： 藉助selenium，實現對「查看更多」的自動點擊，目標是獲取2020年的文章相關數據。

蛋肥想法： 36氪的數據很滿足強迫症，沒有空格換行，只需篩選出2020年的數據保存。

蛋肥想法： 此次重點是學習selenium，所以只簡單做一下數據可視化。

導航:首頁 > 編程語言 > pythonselenium抓取

pythonselenium抓取

與pythonselenium抓取相關的資料