php爬蟲知乎_知乎python 爬蟲如何入門學習

㈠ python爬蟲登錄知乎後怎樣爬取數據

模擬登錄
很多網站，比如知乎、微博、豆瓣，都需要登錄之後，才能瀏覽某些內容。所以想要爬取這類網站，必須先模擬登錄。比較簡單的方式是利用這個網站的 cookie。cookie 相當於是一個密碼箱，裡面儲存了用戶在該網站的基本信息。在一次登錄之後，網站會記住你的信息，把它放到cookie里，方便下次自動登錄。所以，要爬取這類網站的策略是：先進行一次手動登錄，獲取cookie，然後再次登錄時，調用上一次登錄得到的cookie，實現自動登錄。
動態爬取
在爬取知乎某個問題的時候，需要將滑動滑鼠滾輪到底部，以顯示新的回答。靜態的爬取方法無法做到這一點，可以引入selenium庫來解決這一問題。selenium庫模擬人瀏覽網站、進行操作，簡單易懂。

㈡ Python寫爬蟲可以爬知乎的評論嗎

可以。。。

㈢如何用爬蟲爬取知乎專欄信息

python是一款應用非常廣泛的腳本程序語言，谷歌公司的網頁就是用拆埋python編寫。python在生物信息、統計、網頁製作、計算等多個領域都體現出了強大的功能。python和其他腳本語言如java、R、Perl 一樣，都可以直接在命令行里運行腳本程序。工具/原料
python；CMD命令行；windows操作系統
方法/步驟
1、首先下載安裝python，建議安裝2.7版本以上，3.0版本以下，由於3.0版本以上不向下兼容，體驗較差。

2、打開文本編輯器，推薦editplus，notepad等，將文件保存成 .py格式，editplus和notepad支持識別python語法。
腳本第一行一定要寫上 #!usr/bin/python
表示該腳本文件是可執行python腳本
如果python目錄不在usr/bin目錄下，則替換成當前python執行程序的目錄。
3、編寫完腳本之後注意調試、可以直接用editplus調試。調試方法可自行網路。腳本寫完之後，打開CMD命令行，前提是python 已經被攜擾加入到環境變數中，如果沒有加入到環境變數，請百旅隱螞度

4、在CMD命令行中，輸入逗python地 + 逗空格地，即地python 逗；將已經寫好的腳本文件拖拽到當前游標位置，然後敲回車運行即可。

㈣哪個開源多線程爬蟲比較好學知乎

開發網路爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的？這里按照我的經驗隨便扯淡一下：上面說的爬蟲，基本可以分3類：1.分布式爬蟲：Nutch
2.JAVA單機爬蟲：Crawler4j、WebMagic、WebCollector
3. 非JAVA單機爬蟲：scrapy
第一類：分布式爬蟲
爬蟲使用分布式，主要是解決兩個問題：
1）海量URL管理
2）網速
現在比較流行的分布式爬蟲，是Apache的Nutch。但是對於大多數用戶來說，Nutch是這幾類爬蟲里，最不好的選擇，理由如下：
1）Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說，用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新寫一個分布式爬蟲框架了。
2）Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲快。
3）Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套復雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」（parser）這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息（網頁的meta信息、text文本）。
4）用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題（hadoop的問題、hbase的問題）。
5）很多人說Nutch2有gora，可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了，這里說的持久化數據，是指將URL信息（URL管理所需要的數據）存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說，URL信息存在哪裡無所謂。
6）Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。如果想用hbase配合nutch（大多數人用nutch2就是為了用hbase），只能使用0.90版本左右的hbase，相應的就要將hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導作用，Nutch2的教程有兩個，分別是Nutch1.x和Nutch2.x，這個Nutch2.x官網上寫的是可以支持到hbase 0.94。但是實際上，這個Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。
所以，如果你不是要做搜索引擎，盡量不要選擇Nutch作為爬蟲。有些團隊就喜歡跟風，非要選擇Nutch來開發精抽取的爬蟲，其實是沖著Nutch的名氣（Nutch作者是Doug Cutting），當然最後的結果往往是項目延期完成。
如果你是要做搜索引擎，Nutch1.x是一個非常好的選擇。Nutch1.x和solr或者es配合，就可以構成一套非常強大的搜索引擎了。如果非要用Nutch2的話，建議等到Nutch2.3發布再看。目前的Nutch2是一個非常不穩定的版本。
第二類：JAVA單機爬蟲
這里把JAVA爬蟲單獨分為一類，是因為JAVA在網路爬蟲這塊的生態圈是非常完善的。相關的資料也是最全的。這里可能有爭議，我只是隨便扯淡。
其實開源網路爬蟲（框架）的開發非常簡單，難問題和復雜的問題都被以前的人解決了（比如DOM樹解析和定位、字元集檢測、海量URL去重），可以說是毫無技術含量。包括Nutch，其實Nutch的技術難點是開發hadoop，本身代碼非常簡單。網路爬蟲從某種意義來說，類似遍歷本機的文件，查找文件中的信息。沒有任何難度可言。之所以選擇開源爬蟲框架，就是為了省事。比如爬蟲的URL管理、線程池之類的模塊，誰都能做，但是要做穩定也是需要一段時間的調試和修改的。
對於爬蟲的功能來說。用戶比較關心的問題往往是：
1）爬蟲支持多線程么、爬蟲能用代理么、爬蟲會爬取重復數據么、爬蟲能爬取JS生成的信息么？
不支持多線程、不支持代理、不能過濾重復URL的，那都不叫開源爬蟲，那叫循環執行http請求。
能不能爬js生成的信息和爬蟲本身沒有太大關系。爬蟲主要是負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，往往需要通過模擬瀏覽器（htmlunit,selenium）來完成。這些模擬瀏覽器，往往需要耗費很多的時間來處理一個頁面。所以一種策略就是，使用這些爬蟲來遍歷網站，遇到需要解析的頁面，就將網頁的相關信息提交給模擬瀏覽器，來完成JS生成信息的抽取。
2）爬蟲可以爬取ajax信息么？
網頁上有一些非同步載入的數據，爬取這些數據有兩種方法：使用模擬瀏覽器（問題1中描述過了），或者分析ajax的http請求，自己生成ajax請求的url，獲取返回的數據。如果是自己生成ajax請求，使用開源爬蟲的意義在哪裡？其實是要用開源爬蟲的線程池和URL管理功能（比如斷點爬取）。
如果我已經可以生成我所需要的ajax請求（列表），如何用這些爬蟲來對這些請求進行爬取？
爬蟲往往都是設計成廣度遍歷或者深度遍歷的模式，去遍歷靜態或者動態頁面。爬取ajax信息屬於deep web（深網）的范疇，雖然大多數爬蟲都不直接支持。但是也可以通過一些方法來完成。比如WebCollector使用廣度遍歷來遍歷網站。爬蟲的第一輪爬取就是爬取種子集合（seeds）中的所有url。簡單來說，就是將生成的ajax請求作為種子，放入爬蟲。用爬蟲對這些種子，進行深度為1的廣度遍歷（默認就是廣度遍歷）。
3）爬蟲怎麼爬取要登陸的網站？
這些開源爬蟲都支持在爬取時指定cookies，模擬登陸主要是靠cookies。至於cookies怎麼獲取，不是爬蟲管的事情。你可以手動獲取、用http請求模擬登陸或者用模擬瀏覽器自動登陸獲取cookie。
4）爬蟲怎麼抽取網頁的信息？
開源爬蟲一般都會集成網頁抽取工具。主要支持兩種規范：CSS SELECTOR和XPATH。至於哪個好，這里不評價。
5）爬蟲怎麼保存網頁的信息？
有一些爬蟲，自帶一個模塊負責持久化。比如webmagic，有一個模塊叫pipeline。通過簡單地配置，可以將爬蟲抽取到的信息，持久化到文件、資料庫等。還有一些爬蟲，並沒有直接給用戶提供數據持久化的模塊。比如crawler4j和webcollector。讓用戶自己在網頁處理模塊中添加提交資料庫的操作。至於使用pipeline這種模塊好不好，就和操作資料庫使用ORM好不好這個問題類似，取決於你的業務。
6）爬蟲被網站封了怎麼辦？
爬蟲被網站封了，一般用多代理（隨機代理）就可以解決。但是這些開源爬蟲一般沒有直接支持隨機代理的切換。所以用戶往往都需要自己將獲取的代理，放到一個全局數組中，自己寫一個代理隨機獲取（從數組中）的代碼。
7）網頁可以調用爬蟲么？
爬蟲的調用是在Web的服務端調用的，平時怎麼用就怎麼用，這些爬蟲都可以使用。
8）爬蟲速度怎麼樣？
單機開源爬蟲的速度，基本都可以講本機的網速用到極限。爬蟲的速度慢，往往是因為用戶把線程數開少了、網速慢，或者在數據持久化時，和資料庫的交互速度慢。而這些東西，往往都是用戶的機器和二次開發的代碼決定的。這些開源爬蟲的速度，都很可以。
9）明明代碼寫對了，爬不到數據，是不是爬蟲有問題，換個爬蟲能解決么？
如果代碼寫對了，又爬不到數據，換其他爬蟲也是一樣爬不到。遇到這種情況，要麼是網站把你封了，要麼是你爬的數據是javascript生成的。爬不到數據通過換爬蟲是不能解決的。
10）哪個爬蟲可以判斷網站是否爬完、那個爬蟲可以根據主題進行爬取？
爬蟲無法判斷網站是否爬完，只能盡可能覆蓋。
至於根據主題爬取，爬蟲之後把內容爬下來才知道是什麼主題。所以一般都是整個爬下來，然後再去篩選內容。如果嫌爬的太泛，可以通過限制URL正則等方式，來縮小一下范圍。
11）哪個爬蟲的設計模式和構架比較好？
設計模式純屬扯淡。說軟體設計模式好的，都是軟體開發完，然後總結出幾個設計模式。設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。
至於構架，開源爬蟲目前主要是細節的數據結構的設計，比如爬取線程池、任務隊列，這些大家都能控制好。爬蟲的業務太簡單，談不上什麼構架。
所以對於JAVA開源爬蟲，我覺得，隨便找一個用的順手的就可以。如果業務復雜，拿哪個爬蟲來，都是要經過復雜的二次開發，才可以滿足需求。
第三類：非JAVA單機爬蟲
在非JAVA語言編寫的爬蟲中，有很多優秀的爬蟲。這里單獨提取出來作為一類，並不是針對爬蟲本身的質量進行討論，而是針對larbin、scrapy這類爬蟲，對開發成本的影響。
先說python爬蟲，python可以用30行代碼，完成JAVA 50行代碼乾的任務。python寫代碼的確快，但是在調試代碼的階段，python代碼的調試往往會耗費遠遠多於編碼階段省下的時間。使用python開發，要保證程序的正確性和穩定性，就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不復雜，使用scrapy這種爬蟲也是蠻不錯的，可以輕松完成爬取任務。
對於C++爬蟲來說，學習成本會比較大。而且不能只計算一個人的學習成本，如果軟體需要團隊開發或者交接，那就是很多人的學習成本了。軟體的調試也不是那麼容易。
還有一些ruby、php的爬蟲，這里不多評價。的確有一些非常小型的數據採集任務，用ruby或者php很方便。但是選擇這些語言的開源爬蟲，一方面要調研一下相關的生態圈，還有就是，這些開源爬蟲可能會出一些你搜不到的BUG（用的人少、資料也少）

㈤如何用爬蟲爬取知乎專欄信息

推薦個很好用的軟體，我也是一直在用的，就是前嗅的ForeSpider軟體，
我是一直用過很多的採集軟體，最後選擇的前嗅的軟體，ForeSpider這款軟體是可視化的操作。簡單配置幾步就可以採集。如果網站比較復雜，這個軟體自帶爬蟲腳本語言，通過寫幾行腳本，就可以採集所有的公開數據。
軟體還自帶免費的資料庫，數據採集直接存入資料庫，也可以導出成excel文件。
如果自己不想配置，前嗅可以配置採集模板，我的模板就是從前嗅購買的。
另外他們公司不光是軟體好用，還有自己的數據分析系統，直接採集完數據後入庫，ForeSpider內部集成了數據挖掘的功能，可以快速進行聚類分類、統計分析等，採集結果入庫後就可以形成分析報表。
最主要的是他採集速度非常快，我之前用八爪魚的軟體，開伺服器采，用了一個月采了100萬條，後來我用ForeSpider。筆記本採的，一天就好幾百萬條。
這些都是我一直用前嗅的經驗心得，你不妨試試。

㈥知乎python 爬蟲如何入門學習

鏈接：https://pan..com/s/1wMgTx-M-Ea9y1IYn-UTZaA

提取碼：2b6c

課程簡介

畢業不知如何就業？工作效率低經常挨罵？很多次想學編程都沒有學會？

Python 實戰：四周實現爬蟲系統，無需編程基礎，二十八天掌握一項謀生技能。

帶你學到如何從網上批量獲得幾十萬數據，如何處理海量大數據，數據可視化及網站製作。

課程目錄

開始之前，魔力手冊 for 實戰學員預習

第一周：學會爬取網頁信息

第二周：學會爬取大規模數據

第三周：數據統計與分析

第四周：搭建 Django 數據可視化網站

......

㈦如何使用python爬取知乎數據並做簡單分析

一、使用的技術棧：
爬蟲：python27 +requests+json+bs4+time
分析工具： ELK套件
開發工具：pycharm
數據成果簡單的可視化分析
1.性別分布
0 綠色代表的是男性 ^ . ^
1 代表的是女性
-1 性別不確定
可見知乎的用戶男性頗多。
二、粉絲最多的top30
粉絲最多的前三十名：依次是張佳瑋、李開復、黃繼新等等，去知乎上查這些人，也差不多這個排名，說明爬取的數據具有一定的說服力。
三、寫文章最多的top30
四、爬蟲架構
爬蟲架構圖如下：
說明：
選擇一個活躍的用戶（比如李開復）的url作為入口url.並將已爬取的url存在set中。
抓取內容，並解析該用戶的關注的用戶的列表url，添加這些url到另一個set中，並用已爬取的url作為過濾。
解析該用戶的個人信息，並存取到本地磁碟。
logstash取實時的獲取本地磁碟的用戶數據，並給elsticsearchkibana和elasticsearch配合，將數據轉換成用戶友好的可視化圖形。
五、編碼
爬取一個url:
解析內容：
存本地文件：
代碼說明：
* 需要修改獲取requests請求頭的authorization。
* 需要修改你的文件存儲路徑。
源碼下載：點擊這里，記得star哦！https : // github . com/forezp/ZhihuSpiderMan六、如何獲取authorization
打開chorme，打開https : // www. hu .com/，
登陸，首頁隨便找個用戶，進入他的個人主頁，F12(或滑鼠右鍵，點檢查)七、可改進的地方
可增加線程池，提高爬蟲效率
存儲url的時候我才用的set(),並且採用緩存策略，最多隻存2000個url，防止內存不夠，其實可以存在redis中。
存儲爬取後的用戶我說採取的是本地文件的方式，更好的方式應該是存在mongodb中。
對爬取的用戶應該有一個信息的過濾，比如用戶的粉絲數需要大與100或者參與話題數大於10等才存儲。防止抓取了過多的僵屍用戶。
八、關於ELK套件
關於elk的套件安裝就不討論了，具體見官網就行了。網站：https : // www . elastic . co/另外logstash的配置文件如下：
從爬取的用戶數據可分析的地方很多，比如地域、學歷、年齡等等，我就不一一列舉了。另外，我覺得爬蟲是一件非常有意思的事情，在這個內容消費升級的年代，如何在廣闊的互聯網的數據海洋中挖掘有價值的數據，是一件值得思考和需不斷踐行的事情。

導航:首頁 > 編程語言 > php爬蟲知乎

php爬蟲知乎

與php爬蟲知乎相關的資料