python爬數據網頁很大_python怎麼做大數據分析

Ⅰ 如何用python爬取數據

方法/步驟

在做爬取數據之前，你需要下載安裝兩個東西，一個是urllib,另外一個是python-docx。
7
這個爬下來的是源代碼，如果還需要篩選的話需要自己去添加各種正則表達式。

Ⅱ python怎麼做大數據分析

數據獲取：公開數據、Python爬蟲外部數據的獲取方式主要有以下兩種。（推薦學習：Python視頻教程）
第一種是獲取外部的公開數據集，一些科研機構、企業、政府會開放一些數據，你需要到特定的網站去下載這些數據。這些數據集通常比較完善、質量相對較高。
另一種獲取外部數據的方式就是爬蟲。
比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息，爬取租房網站上某城市的租房信息，爬取豆瓣評分評分最高的電影列表，獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據，你可以對某個行業、某種人群進行分析。
在爬蟲之前你需要先了解一些 Python 的基礎知識：元素（列表、字典、元組等）、變數、循環、函數………
以及，如何用 Python 庫（urlpb、BeautifulSoup、requests、scrapy）實現網頁爬蟲。
掌握基礎的爬蟲之後，你還需要一些高級技巧，比如正則表達式、使用cookie信息、模擬用戶登錄、抓包分析、搭建代理池等等，來應對不同網站的反爬蟲限制。
數據存取：SQL語言
在應對萬以內的數據的時候，Excel對於一般的分析沒有問題，一旦數據量大，就會力不從心，資料庫就能夠很好地解決這個問題。而且大多數的企業，都會以SQL的形式來存儲數據。
SQL作為最經典的資料庫工具，為海量數據的存儲與管理提供可能，並且使數據的提取的效率大大提升。你需要掌握以下技能：
提取特定情況下的數據
資料庫的增、刪、查、改
數據的分組聚合、如何建立多個表之間的聯系
數據預處理：Python（pandas）
很多時候我們拿到的數據是不幹凈的，數據的重復、缺失、異常值等等，這時候就需要進行數據的清洗，把這些影響分析的數據處理好，才能獲得更加精確地分析結果。
對於數據預處理，學會 pandas （Python包）的用法，應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下：
選擇：數據訪問
缺失值處理：對缺失數據行進行刪除或填充
重復值處理：重復值的判斷與刪除
異常值處理：清除不必要的空格和極端、異常數據
相關操作：描述性統計、Apply、直方圖等
合並：符合各種邏輯關系的合並操作
分組：數據劃分、分別執行函數、數據重組
Reshaping：快速生成數據透視表
概率論及統計學知識
需要掌握的知識點如下：
基本統計量：均值、中位數、眾數、百分位數、極值等
其他描述性統計量：偏度、方差、標准差、顯著性等
其他統計知識：總體和樣本、參數和統計量、ErrorBar
概率分布與假設檢驗：各種分布、假設檢驗流程
其他概率論知識：條件概率、貝葉斯等
有了統計學的基本知識，你就可以用這些統計量做基本的分析了。你可以使用 Seaborn、matplotpb 等（python包）做一些可視化的分析，通過各種可視化統計圖，並得出具有指導意義的結果。
Python 數據分析
掌握回歸分析的方法，通過線性回歸和邏輯回歸，其實你就可以對大多數的數據進行回歸分析，並得出相對精確地結論。這部分需要掌握的知識點如下：
回歸分析：線性回歸、邏輯回歸
基本的分類演算法：決策樹、隨機森林……
基本的聚類演算法：k-means……
特徵工程基礎：如何用特徵選擇優化模型
調參方法：如何調節參數優化模型
Python 數據分析包：scipy、numpy、scikit-learn等
在數據分析的這個階段，重點了解回歸分析的方法，大多數的問題可以得以解決，利用描述性的統計分析和回歸分析，你完全可以得到一個不錯的分析結論。
當然，隨著你實踐量的增多，可能會遇到一些復雜的問題，你就可能需要去了解一些更高級的演算法：分類、聚類。
然後你會知道面對不同類型的問題的時候更適合用哪種演算法模型，對於模型的優化，你需要去了解如何通過特徵提取、參數調節來提升預測的精度。
你可以通過 Python 中的 scikit-learn 庫來實現數據分析、數據挖掘建模和分析的全過程。
更多Python相關技術文章，請訪問Python教程欄目進行學習！以上就是小編分享的關於python怎麼做大數據分析的詳細內容希望對大家有所幫助，更多有關python教程請關注環球青藤其它相關文章！

Ⅲ 使用phantomjs爬取頁面內容時，內存佔用過多如何解決

怎說，我當時寫爬蟲的時候，也是開了多台gecodriver的進程，但是我用Python監控了cpu的資源管理，佔用率太高了我就kill掉一部分的進程，如果是進程本身就死掉當然會kill並且有重啟機制。當然最後穩定下來確定了每台機器開幾個進程利用率很高。

Ⅳ python怎麼爬取網站數據

很簡單，三步，用爬蟲框架scrapy
1. 定義item類
2. 開發spider類
3. 開發pipeline
如果有不會的，可以看一看《瘋狂python講義》

Ⅳ 如何用Python做爬蟲

1）首先你要明白爬蟲怎樣工作。

想像你是一隻蜘蛛，現在你被放到了互聯「網」上。那麼，你需要把所有的網頁都看一遍。怎麼辦呢？沒問題呀，你就隨便從某個地方開始，比如說人民日報的首頁，這個叫initial pages，用$表示吧。

在人民日報的首頁，你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了「國內新聞」那個頁面。太好了，這樣你就已經爬完了倆頁面（首頁和國內新聞）！暫且不用管爬下來的頁面怎麼處理的，你就想像你把這個頁面完完整整抄成了個html放到了你身上。

突然你發現，在國內新聞這個頁面上，有一個鏈接鏈回「首頁」。作為一隻聰明的蜘蛛，你肯定知道你不用爬回去的吧，因為你已經看過了啊。所以，你需要用你的腦子，存下你已經看過的頁面地址。這樣，每次看到一個可能需要爬的新鏈接，你就先查查你腦子里是不是已經去過這個頁面地址。如果去過，那就別去了。

好的，理論上如果所有的頁面可以從initial page達到的話，那麼可以證明你一定可以爬完所有的網頁。

那麼在python里怎麼實現呢？
很簡單

import Queue

initial_page = "初始化頁"

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直進行直到海枯石爛
if url_queue.size()>0:
current_url = url_queue.get() #拿出隊例中第一個的url
store(current_url) #把這個url代表的網頁存儲好
for next_url in extract_urls(current_url): #提取把這個url里鏈向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break

寫得已經很偽代碼了。

所有的爬蟲的backbone都在這里，下面分析一下為什麼爬蟲事實上是個非常復雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。

2）效率
如果你直接加工一下上面的代碼直接運行的話，你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。

問題出在哪呢？需要爬的網頁實在太多太多了，而上面的代碼太慢太慢了。設想全網有N個網站，那麼分析一下判重的復雜度就是N*log(N)，因為所有網頁要遍歷一次，而每次判重用set的話需要log(N)的復雜度。OK，OK，我知道python的set實現是hash——不過這樣還是太慢了，至少內存使用效率不高。

通常的判重做法是怎樣呢？Bloom Filter. 簡單講它仍然是一種hash的方法，但是它的特點是，它可以使用固定的內存（不隨url的數量而增長）以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐，它的唯一問題在於，如果這個url不在set中，BF可以100%確定這個url沒有看過。但是如果這個url在set中，它會告訴你：這個url應該已經出現過，不過我有2%的不確定性。注意這里的不確定性在你分配的內存足夠大的時候，可以變得很小很少。一個簡單的教程:Bloom Filters by Example

注意到這個特點，url如果被看過，那麼可能以小概率重復看一看（沒關系，多看看不會累死）。但是如果沒被看過，一定會被看一下（這個很重要，不然我們就要漏掉一些網頁了！）。 [IMPORTANT: 此段有問題，請暫時略過]

好，現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大，只要你的機器下載網頁的速度是瓶頸的話，那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧！當然，我們假設每台機子都已經進了最大的效率——使用多線程（python的話，多進程吧）。

3）集群化抓取
爬取豆瓣的時候，我總共用了100多台機器晝夜不停地運行了一個月。想像如果只用一台機子你就得運行100個月了...

那麼，假設你現在有100台機器可以用，怎麼用python實現一個分布式的爬取演算法呢？

我們把這100台中的99台運算能力較小的機器叫作slave，另外一台較大的機器叫作master，那麼回顧上面代碼中的url_queue，如果我們能把這個queue放到這台master機器上，所有的slave都可以通過網路跟master聯通，每當一個slave完成下載一個網頁，就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁，就把這個網頁上所有的鏈接送到master的queue里去。同樣，bloom filter也放到master上，但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里，而被訪問過的url放到運行在master上的Redis里，這樣保證所有操作都是O(1)。（至少平攤是O(1)，Redis的訪問效率見:LINSERT – Redis)

考慮如何用python實現：
在各台slave上裝好scrapy，那麼各台機子就變成了一台有抓取能力的slave，在master上裝好Redis和rq用作分布式隊列。

代碼於是寫成

#slave.py

current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)

store(current_url);
send_to_master(to_send)

#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()

initial_pages = "www.renmingribao.com"

while(True):
if request == 'GET':
if distributed_queue.size()>0:
send(distributed_queue.get())
else:
break
elif request == 'POST':
bf.put(request.url)

好的，其實你能想到，有人已經給你寫好了你需要的：darkrho/scrapy-redis · GitHub

4）展望及後處理
雖然上面用很多「簡單」，但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。

但是如果附加上你需要這些後續處理，比如

有效地存儲（資料庫應該怎樣安排）

有效地判重（這里指網頁判重，咱可不想把人民日報和抄襲它的大民日報都爬一遍）

有效地信息抽取（比如怎麼樣抽取出網頁上所有的地址抽取出來，「朝陽區奮進路中華道」），搜索引擎通常不需要存儲所有的信息，比如圖片我存來幹嘛...

及時更新（預測這個網頁多久會更新一次）

如你所想，這里每一個點都可以供很多研究者十數年的研究。雖然如此，
「路漫漫其修遠兮,吾將上下而求索」。

所以，不要問怎麼入門，直接上路就好了：）

Ⅵ 如何用python爬取網站數據

這里簡單介紹一下吧，以抓取網站靜態、動態2種數據為慧返拍例，實驗環境win10+python3.6+pycharm5.0，主要內容如下：

抓取網站靜態數據（數據在網頁源碼中）：以糗事網路網站數據為例

1.這里假設我們抓取的數據如下，主要包括用戶昵稱、內容、好笑數和評論數這4個欄位，如下：

對應的網頁源碼如下，包含我們所需要的數據：

2.對應網頁結構，主要代碼如下，很簡單，主要用到requests+BeautifulSoup，其中requests用於請求頁面，BeautifulSoup用於解析頁面：

程序運行截圖如下，已經成功爬取到數據：

抓取網站動態數據（數據不在網頁源碼中，json等文件中）：以人人貸網站數據為例

1.這里假設我們爬取的是債券數據，主要包括年利率世型、借款標題、期限、金額和進度這5個欄位信息，截圖如下：

打開網頁源碼中，可以發現數據不在網頁源碼中，按F12抓包分析時，才發現在一個json文件中，如下：

2.獲取到json文件的url後，我們就可以爬取對應數據了，這里使用的包與上面類似，因為是json文件，所以還用了json這個包（解析json），主要內容如下：

程序運行截圖如下，前羨已經成功抓取到數據：

至此，這里就介紹完了這2種數據的抓取，包括靜態數據和動態數據。總的來說，這2個示例不難，都是入門級別的爬蟲，網頁結構也比較簡單，最重要的還是要會進行抓包分析，對頁面進行分析提取，後期熟悉後，可以藉助scrapy這個框架進行數據的爬取，可以更方便一些，效率更高，當然，如果爬取的頁面比較復雜，像驗證碼、加密等，這時候就需要認真分析了，網上也有一些教程可供參考，感興趣的可以搜一下，希望以上分享的內容能對你有所幫助吧。

Ⅶ 用Python爬蟲可以爬過去的網站嗎

首先我們要知道什麼是爬蟲？爬蟲就是一個自動抓取網頁數據的程序，是搜索引擎的重要組成部分。通過計算機程序在網路不斷通過定製的入口網址去提取網頁的鏈接，並根據這些鏈接再度抓取提取更深的其它未知的鏈接，以此下去,最終獲取想要的內容。

接下來我們態咐就要思考如何用爬蟲抓取網頁數據：

1.首先要明確網頁的三大特徵：

1）每一個網頁都有唯一統一資源定位符（URL）來進行定位；

2）網頁使用超文本標記語言（HTML）來描述頁面信息；

3）網頁使用超文本傳輸協議（HTTP/HTTPS）協議來傳輸HTML數據。

2.建立爬蟲的設計思路：

1）首先確定需要爬取的網頁URL地址；

2）通過HTTP/HTTP協議來獲取對應的HTML頁面；

3）提取困讓HTML頁面里有用的數據：

a.如果是需要的數據，就保存起來。

b.如果是頁面里的其他URL，那就繼續執行第二步。

比如我們想爬去新浪資訊整站數據內容，觀察到新浪首頁上方有很多分類，例如新聞、財經、科技、體育、娛樂、汽車，每一個分類下又分很多子類，例如新聞下又分汪閉局為軍事、社會、國際。因此，首先要從新浪的首頁開始，找到各個大類的URL鏈接，再在大類下找到小類的URL鏈接，最後找到每個新聞頁面的URL，按需求爬取文本後者圖片，這就是爬取一整個資源站的思路。

3.爬蟲的方式

可以做爬蟲的語言有很多，如PHP、Java、C/C++、Python等等...

但目前Python憑借其語法優美、代碼簡潔、開發效率高、支持的模塊多，相關的HTTP請求模塊和HTML解析模塊非常豐富成為了最廣泛使用的方式，其有強大的爬蟲Scrapy以及成熟高效的scrapy-redis分布式策略。此外，利用python調用其他借口也是非常方便。

Ⅷ Python爬蟲：如何在一個月內學會爬取大規模數

爬蟲是入門Python最好的方式，沒有之一。Python有很多應用的方向，比如後台開發、web開發、科學計算等等，但爬蟲對於初學者而言更友好，原理簡單，幾行代碼就能實現基本的爬蟲，學習的過程更加平滑，你能體會更大的成就感。
掌握基本的爬蟲後，你再去學習Python數據分析、web開發甚至機器學習，都會更得心應手。因為這個過程中，Python基本語法、庫的使用，以及如何查找文檔你都非常熟悉了。
對於小白來說，爬蟲可能是一件非常復雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python，然後哼哧哼哧系統學習 Python 的每個知識點，很久之後發現仍然爬不了數據；有的人則認為先要掌握網頁的知識，遂開始 HTMLCSS，結果入了前端的坑，瘁……
但掌握正確的方法，在短時間內做到能夠爬取主流網站的數據，其實非常容易實現，但建議你從一開始就要有一個具體的目標。
在目標的驅動下，你的學習才會更加精準和高效。那些所有你認為必須的前置知識，都是可以在完成目標的過程中學到的。這里給你一條平滑的、零基礎快速入門的學習路徑。
1.學習 Python 包並實現基本的爬蟲過程
2.了解非結構化數據的存儲
3.學習scrapy，搭建工程化爬蟲
4.學習資料庫知識，應對大規模數據存儲與提取
5.掌握各種技巧，應對特殊網站的反爬措施
6.分布式爬蟲，實現大規模並發採集，提升效率
- -
學習 Python 包並實現基本的爬蟲過程
大部分Python爬蟲都是按「發送請求——獲得頁面——解析頁面——抽取並儲存內容」這樣的流程來進行，這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。
Python爬蟲相關的包很多：urllib、requests、bs4、scrapy、pyspider 等，建議從requests+Xpath 開始，requests 負責連接網站，返回網頁，Xpath 用於解析網頁，便於抽取數據。
如果你用過 BeautifulSoup，會發現 Xpath 要省事不少，一層一層檢查元素代碼的工作，全都省略了。這樣下來基本套路都差不多，一般的靜態網站根本不在話下，豆瓣、糗事網路、騰訊新聞等基本上都可以上手了。
當然如果你需要爬取非同步載入的網站，可以學習瀏覽器抓包分析真實請求或者學習Selenium來實現自動化，這樣，知乎、時光網、貓途鷹這些動態的網站也可以迎刃而解。
- -
了解非結構化數據的存儲
爬回來的數據可以直接用文檔形式存在本地，也可以存入資料庫中。
開始數據量不大的時候，你可以直接通過 Python 的語法或 pandas 的方法將數據存為csv這樣的文件。
當然你可能發現爬回來的數據並不是干凈的，可能會有缺失、錯誤等等，你還需要對數據進行清洗，可以學習 pandas 包的基本用法來做數據的預處理，得到更干凈的數據。
- -
學習 scrapy，搭建工程化的爬蟲
掌握前面的技術一般量級的數據和代碼基本沒有問題了，但是在遇到非常復雜的情況，可能仍然會力不從心，這個時候，強大的 scrapy 框架就非常有用了。
scrapy 是一個功能非常強大的爬蟲框架，它不僅能便捷地構建request，還有強大的 selector 能夠方便地解析 response，然而它最讓人驚喜的還是它超高的性能，讓你可以將爬蟲工程化、模塊化。
學會 scrapy，你可以自己去搭建一些爬蟲框架，你就基本具備爬蟲工程師的思維了。
- -
學習資料庫基礎，應對大規模數據存儲
爬回來的數據量小的時候，你可以用文檔的形式來存儲，一旦數據量大了，這就有點行不通了。所以掌握一種資料庫是必須的，學習目前比較主流的 MongoDB 就OK。
MongoDB 可以方便你去存儲一些非結構化的數據，比如各種評論的文本，圖片的鏈接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。
因為這里要用到的資料庫知識其實非常簡單，主要是數據如何入庫、如何進行提取，在需要的時候再學習就行。
- -
掌握各種技巧，應對特殊網站的反爬措施
當然，爬蟲過程中也會經歷一些絕望啊，比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態載入等等。
遇到這些反爬蟲的手段，當然還需要一些高級的技巧來應對，常規的比如訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等。
往往網站在高效開發和反爬蟲之間會偏向前者，這也為爬蟲提供了空間，掌握這些應對反爬蟲的技巧，絕大部分的網站已經難不到你了。
- -
分布式Python爬蟲，實現大規模並發採集
爬取基本數據已經不是問題了，你的瓶頸會集中到爬取海量數據的效率。這個時候，相信你會很自然地接觸到一個很厲害的名字：分布式爬蟲。
分布式這個東西，聽起來很恐怖，但其實就是利用多線程的原理讓多個爬蟲同時工作，需要你掌握 Scrapy + MongoDB + Redis 這三種工具。
Scrapy 前面我們說過了，用於做基本的

Ⅸ Python爬蟲如何避免爬取網站訪問過於頻繁

一. 關於爬蟲
爬蟲，是一種按照一定的規則自動地抓取互聯網信息的程序。本質是利用程序獲取對我們有利的數據。

反爬蟲，從不是將爬蟲完全杜絕；而是想辦法將爬蟲的訪問量限制在一個可接納的范圍，不要讓它過於頻繁。

二. 提高爬蟲效率的方法
協程。採用協程，讓多個爬蟲一起工作，可以大幅度提高效率。

多進程。使用CPU的多個核，使用幾個核就能提高幾倍。

多線程。將任務分成多個，並發（交替）的執行。

分布式爬蟲。讓多個設備去跑同一個項目，效率也能大幅提升。

打包技術。可以將python文件打包成可執行的exe文件，讓其在後台執行即可。

其他。比如，使用網速好的網路等等。

三. 反爬蟲的措施
限制請求頭，即request header。解決方法：我們可以填寫user-agent聲明自己的身份，有時還要去填寫origin和referer聲明請求的來源。

限制登錄，即不登錄就不能訪問。解決方法：我們可以使用cookies和session的知識去模擬登錄。

復雜的交互，比如設置「驗證碼」來阻攔登錄。這就比較難做，解決方法1：我們用Selenium去手動輸入驗證碼；方法2：我們用一些圖像處理的庫自動識別驗證碼（tesserocr/pytesserart/pillow）。

ip限制。如果這個IP地址，爬取網站頻次太高，那麼伺服器就會暫時封掉來自這個IP地址的請求。解決方法：使用time.sleep()來對爬蟲的速度進行限制，建立IP代理池或者使用IPIDEA避免IP被封禁。

Ⅹ 如何用Python爬取搜索引擎的結果

我選取的是爬取網路知道的html 作為我的搜索源數據，目前先打算做網頁標題的搜索，選用了 Python 的 scrapy 庫來對網頁進行爬取，爬取網頁的標題，url，以及html，用sqlist3來對爬取的數據源進行管理。
爬取的過程是一個深度優先的過程，設定四個起始 url ，然後維護一個資料庫，資料庫中有兩個表，一個 infoLib，其中存儲了爬取的主要信息：標題，url ，html；另一個表為urlLib，存儲已經爬取的url，是一個輔助表，在我們爬取每個網頁前，需要先判斷該網頁是否已爬過（是否存在urlLib中）。在數據存儲的過程中，使用了SQL的少量語法，由於我之前學過 MySQL ，這塊處理起來比較駕輕就熟。
深度優先的網頁爬取方案是：給定初始 url，爬取這個網頁中所有 url，繼續對網頁中的 url 遞歸爬取。代碼逐段解析在下面，方便自己以後回顧。
1.建一個 scrapy 工程：
關於建工程，可以參看這個scrapy入門教程，通過運行:

[python] view plain
scrapy startproject ***

在當前目錄下建一個scrapy 的項目，然後在 spiders 的子目錄下建立一個 .py文件，該文件即是爬蟲的主要文件，注意：其中該文件的名字不能與該工程的名字相同，否則，之後調用跑這個爬蟲的時候將會出現錯誤，見ImportError。
2.具體寫.py文件：

[python] view plain
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #該類繼承自 scrapy 中的 spider
name = "" #將該爬蟲命名為「知道」，在執行爬蟲時對應指令將為： scrapy crawl
#download_delay = 1 #只是用於控制爬蟲速度的，1s/次，可以用來對付反爬蟲
allowed_domains = ["..com"] #允許爬取的作用域
url_first = 'http://..com/question/' #用於之後解析域名用的短字元串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定義初始的 url ，有五類知道起始網頁

#add database
connDataBase = sqlite3.connect(".db") #連接到資料庫「.db」
cDataBase = connDataBase.cursor() #設置定位指針
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通過定位指針操作資料庫，若.db中 infoLib表不存在，則建立該表，其中主鍵是自增的 id（用於引擎的docId）,下一列是文章的標題，然後是url，最後是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通過定位指針操作資料庫，若.db中urlLib表不存在，則建立該表，其中只存了 url，保存已經爬過的url，之所以再建一個表，是猜測表的主鍵應該使用哈希表存儲的，查詢速度較快，此處其實也可以用一個外鍵將兩個表關聯起來

2. .py文件中的parse函數：

.py文件中的parse函數將具體處理url返回的 response，進行解析，具體代碼中說明：

[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取網頁中的名稱
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取網頁的 url，並不是直接使用函數獲取，那樣會夾雜亂碼
pageHtml = response.xpath("//html").extract()[0] #獲取網頁html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若當前url 是 start_url 中以一員。進行該判斷的原因是，我們對重復的 start_url 中的網址將仍然進行爬取，而對非 start_url 中的曾經爬過的網頁將不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若當前Url已經爬過
pass #則不再在資料庫中添加信息，只是由其為跟繼續往下爬
else: #否則，將信息爬入資料庫
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此時進入的非 url 網頁一定是沒有爬取過的（因為深入start_url之後的網頁都會先進行判斷，在爬取，在下面的for循環中判斷）
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存資料庫的更新

print "-----------------------------------------------" #輸出提示信息，沒啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有該網頁的延伸網頁，進行判斷並對未爬過的網頁進行爬取
sel = "http://..com" + sel #解析出延伸網頁的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判斷該網頁是否已在資料庫中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在，則對其繼續進行爬取
yield Request(url = sel, callback=self.parse)

導航:首頁 > 編程語言 > python爬數據網頁很大

python爬數據網頁很大

與python爬數據網頁很大相關的資料