㈠ python爬蟲怎麼做
大到各類搜索引擎,小到日常數據採集,都離不開網路爬蟲。爬蟲的基本原理很簡單,遍歷網路中網頁,抓取感興趣的數據內容。這篇文章會從零開始介紹如何編寫一個網路爬蟲抓取數據做告宏,然後會一步步逐漸完善爬蟲的抓取功能。
工具安裝
我們需要安裝python,python的requests和BeautifulSoup庫。我們用Requests庫用抓取網頁的內容,使用BeautifulSoup庫來從網頁中提取數據。
安裝python
運行pipinstallrequests
運行pipinstallBeautifulSoup
抓取網頁
完成必要工具安裝後,我們正式開始編寫我們的爬蟲。我們的第一個任務是要抓取所有豆瓣上的圖書信息。我們以/subject/26986954/為例,首先看看開如何抓取網頁的內容。
使用python的requests提供的get()方法我們可以非常簡單的獲取的指定網頁的內純冊容,代碼如下:
提取內容
抓取到網頁的內容後,我們要做的就是提取出我們想要的內容。在我們的第一個例子中,我們只需要提取書名。首先我們導入BeautifulSoup庫,使用BeautifulSoup我們可以非常簡單的提取網頁的特定內容。
連續抓取網頁
到目前為止,我們已經可以抓取單個網頁的內容了,現在讓我們看看如何抓取整個網站的內容。我們知道網頁之間是通過超鏈接互相連接在一起的,通過鏈接我們可以訪問整個網路。所以我們可以從每個頁面提取出包含指向其它網頁的鏈接,然後重復的對新鏈接進行抓取。
通過以上幾步我們就可以寫出一個最原始的爬蟲。在理解了爬蟲原理的基礎上,我們可以進一步對爬蟲進行完善。
寫過一個系列關於爬蟲的文章:/i6567289381185389064/。感興趣的可以前往查看。
Python基本環境的搭建,爬蟲的基本原理以及爬蟲的原型
Python爬蟲入門(第1部分)
如何使用BeautifulSoup對網頁內容進行提取
Python爬蟲入門(第2部分)
爬蟲運行時數據的存儲數據,以SQLite和MySQL作為示例
Python爬蟲入門(第3部分)
使用seleniumwebdriver對動態網頁進行抓取
Python爬蟲入門(第4部分)
討論了如何處理網站的反爬蟲策略
Python爬友如蟲入門(第5部分)
對Python的Scrapy爬蟲框架做了介紹,並簡單的演示了如何在Scrapy下進行開發
Python爬蟲入門(第6部分)
㈡ 從零開始學python爬蟲(八):selenium提取數據和其他使用方法
知識點:
知識點:了解 driver對象的常用屬性和方法
注意:最新版本的selenium已經取消了這種格式,取而代之的是:
你要先導入:
然後再:
知識點:掌握 driver對象定位標簽元素獲取標簽對象的方法
代碼實現,如下,獲取騰訊新聞首頁的新聞標簽的內容。
知識點:掌握 元素對象的操作方法
參考代碼示例:
知識點:掌握 selenium控制標簽頁的切換
知識點:掌握 selenium控制frame標簽的切換
知識點:掌握 利用selenium獲取cookie的方法
知識點:掌握 selenium控制瀏覽器執行js代碼的方法
知識點:掌握 手動實現頁面等待
知識點:掌握 selenium開啟無界面模式
知識點:了解 selenium使用代理ip
知識點:了解 selenium替換user-agent
㈢ Python爬蟲實戰(3)selenium完成瀑布流數據爬取
爬取時間:2021/01/27
系統環境:Windows 10
所用工具:Jupyter NotebookPython 3.0
涉及的庫:selenium
蛋肥想法: 藉助selenium,實現對「查看更多」的自動點擊,目標是獲取2020年的文章相關數據。
蛋肥想法: 36氪的數據很滿足強迫症,沒有空格換行,只需篩選出2020年的數據保存。
蛋肥想法: 此次重點是學習selenium,所以只簡單做一下數據可視化。