python爬蟲如何輸入網址_python 爬蟲怎麼獲取網址

❶ 寫個python 爬蟲怎麼爬取一個網頁上面發現的url鏈接

1.使用beautifulsoup框架。

frombs4importBeautifulSoup
bs=BeautifulSoup('網頁源碼',"html.parser")
bs.findAll('a')#查找所有的超鏈接
#具體方法可以參見官方文檔

2.使用正則表達式

❷ python網頁爬蟲教程

現行環境下，大數據與人工智慧的重要依託還是龐大的數據和分析採集，類似於神譽淘寶京東網路騰訊級別的企業能夠通過數據可觀的用戶群體獲取需要的數據，而一般企業可能就沒有這種通過產品獲取數據的能力和條件，想從事這方面的工作，需掌握以下知識：
1. 學習Python基礎知識並實現基本的爬蟲過程
一般獲取數據的過程都是按照發送請求-獲得頁面反饋-解析並且存儲數據這三個流程來實現的。這個過程其實就是模擬了一個人工瀏覽網頁的過程。
Python中爬蟲相關的包很多：urllib、requests、bs4、scrapy、pyspider 等，我們可以按照requests 負責連接網謹唯站，返回網頁，Xpath 用於解析網頁，便於抽取數據。
2.了解非結構化數據的存儲
爬蟲抓取的數據結構復雜傳統的結構化資料庫可能並不是特別適合我們使用。我們前期推薦使用MongoDB 就可以。
3. 掌握一些常用的反爬蟲技巧
使用代理IP池、抓包、驗證碼的OCR處理等處理方式即可以解決大部分網站的反爬蟲策略。
4.了解分布式存儲
分布式這個東西，聽起來很恐怖，但其實就是利用多線程的原理讓多個爬蟲同時工作，需要你掌握 Scrapy + MongoDB + Redis 這三種工具游晌段就可以了。

❸ 如何用Python爬蟲抓取網頁內容

首先,你要安裝requests和BeautifulSoup4,然後執行如下代碼.

importrequests
frombs4importBeautifulSoup

iurl='http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

res=requests.get(iurl)

res.encoding='utf-8'

#print(len(res.text))

soup=BeautifulSoup(res.text,'html.parser')

#標題
H1=soup.select('#artibodyTitle')[0].text

#來源
time_source=soup.select('.time-source')[0].text


#來源
origin=soup.select('#artibodyp')[0].text.strip()

#原標題
oriTitle=soup.select('#artibodyp')[1].text.strip()

#內容
raw_content=soup.select('#artibodyp')[2:19]
content=[]
forparagraphinraw_content:
content.append(paragraph.text.strip())
'@'.join(content)
#責任編輯
ae=soup.select('.article-editor')[0].text

這樣就可以了

❹ Python爬蟲如何寫

Python的爬蟲庫其實很多，像常見的urllib，requests，bs4，lxml等，初始入門爬蟲的話，可以學習一下requests和bs4(BeautifulSoup)這2個庫，比較簡單，也易學習，requests用於請求頁面，BeautifulSoup用於解析頁面，下面我以這2個庫為基礎，簡單介紹一下Python如何爬取網頁靜態數據和網頁動態數據，實驗環境win10+python3.6+pycharm5.0，主要內容如下：

Python爬取網頁靜態數據

這個就很簡單，直接根據網址請求頁面就行，這里以爬取糗事網路上的內容為例：

1.這里假設我們要爬取的文本內容如下，主要包括昵稱、內容、好笑數和評論數這4個欄位：

打開網頁源碼，對應網頁結構如下，很簡單，所有欄位內容都可以直接找到：

2.針對以上網頁結構，我們就可以編寫相關代碼來爬取網頁數據了，很簡單，先根據url地址，利用requests請求頁面，然後再利用BeautifulSoup解析數據（根據標簽和屬性定位）就行，如下：

程序運行截圖如下，已經成功爬取到數據：

Python爬取網頁動態數據

很多種情況下，網頁數據都是動態載入的，直接爬取網頁是提取不到任何數據的，這時就需要抓包分析，找到動態載入的數據，一般情況下就是一個json文件（當然，也敬鏈譽可能是其他類型的文件，像xml等），然後請求解析這個json文件，就能獲取到我們需要的數據，這里以爬取人人貸上面的散標數據為例：

1.這里假設我們爬取的數據如下，主要包括年亮段利率，借款標題，期限，金額，進度這5個欄位：

2.按F12調出開發者工具，依次點擊「Network」->「XHR」，F5刷新頁面，就可以找到動態載入的json文件，具體信息如下：

3.接著，針對以上抓包分析，我們就可以編寫相關代碼來爬取數據了，基本思路和上面的靜態網頁差不多，先利用requests請求json，然後再利用python自帶的json包解析數據就行，如下：

程序運行截圖如下，已經成功獲取到數據：

至此，我們就完成了利用python來爬取網頁數據。總的來說，整個過程很簡單，requests和BeautifulSoup對於初學者來說，非常容易學習，也易掌握，可以學習使用一下，後期熟悉後，可以學習一下scrapy爬蟲框架，可以明顯提高開發效率，非常不錯，當然，網頁中要是有加密、驗證碼等，這個就需要自己好好琢磨，研究對策了，網上也有相關教程和資料，感興趣的話，可以搜一下，希望以上分喚陸享的內容能對你上有所幫助吧，也歡迎大家評論、留言。

❺ python 爬蟲怎麼獲取網址

初始地址是要你自己給的。
後續的地址可以通過解析網頁內容（比如 pyquery），通過屬性名提取，比如 pq（item）.attr("src")

❻ 如何用 Python 爬取需要登錄的網站

最近我必須執行一項從一個需要登錄的網站上爬取一些網頁的操作。它沒有我想像中那麼簡單，因此我決定為它寫一個輔助教程。

在本教程中，我們將從我們的bitbucket賬戶中爬取一個項目列表。

教程中的代碼可以從我的Github中找到。

我們將會按照以下步驟進行：

提取登錄需要的詳細信息
執行站點登錄
爬取所需要的數據

在本教程中，我使用了以下包（可以在requirements.txt中找到）：

Python

requests

lxml

步驟一：研究該網站

打開登錄頁面

進入以下頁面「bitbucket.org/account/signin」。你會看到如下圖所示的頁面（執行注銷，以防你已經登錄）

仔細研究那些我們需要提取的詳細信息，以供登錄之用

在這一部分，我們會創建一個字典來保存執行登錄的詳細信息：

1. 右擊「Username or email」欄位，選擇「查看元素」。我們將使用「name」屬性為「username」的輸入框的值。「username」將會是 key 值，我們的用戶名/電子郵箱就是對應的 value 值（在其他的網站上這些 key 值可能是「email」，「 user_name」，「 login」，等等）。

2. 右擊「Password」欄位，選擇「查看元素」。在腳本中我們需要使用「name」屬性為「password」的輸入框的值。「password」將是字典的 key 值，我們輸入的密碼將是對應的 value 值（在其他網站key值可能是「userpassword」，「loginpassword」，「pwd」，等等）。

3. 在源代碼頁面中，查找一個名為「csrfmiddlewaretoken」的隱藏輸入標簽。「csrfmiddlewaretoken」將是 key 值，而對應的 value 值將是這個隱藏的輸入值（在其他網站上這個 value 值可能是一個名為「csrftoken」，「authenticationtoken」的隱藏輸入值）。列如：「」。

最後我們將會得到一個類似這樣的字典：

Python

payload = {

"username": "<USER NAME>",

"password": "<PASSWORD>",

"csrfmiddlewaretoken": "<CSRF_TOKEN>"

}

請記住，這是這個網站的一個具體案例。雖然這個登錄表單很簡單，但其他網站可能需要我們檢查瀏覽器的請求日誌，並找到登錄步驟中應該使用的相關的 key 值和 value 值。

步驟2：執行登錄網站

對於這個腳本，我們只需要導入如下內容：

Python

import requests

from lxml import html

首先，我們要創建session對象。這個對象會允許我們保存所有的登錄會話請求。

Python

session_requests = requests.session()

第二，我們要從該網頁上提取在登錄時所使用的 csrf 標記。在這個例子中，我們使用的是 lxml 和 xpath 來提取，我們也可以使用正則表達式或者其他的一些方法來提取這些數據。

Python

login_url = "n/?next=/"

result = session_requests.get(login_url)

tree = html.fromstring(result.text)

authenticity_token = list(set(tree.xpath("//input[@name='csrfmiddlewaretoken']/@value")))[0]

**更多關於xpath 和lxml的信息可以在這里找到。

接下來，我們要執行登錄階段。在這一階段，我們發送一個 POST 請求給登錄的 url。我們使用前面步驟中創建的 payload 作為 data 。也可以為該請求使用一個標題並在該標題中給這個相同的 url添加一個參照鍵。

Python

result = session_requests.post(

login_url,

data = payload,

headers = dict(referer=login_url)

)

步驟三：爬取內容

現在，我們已經登錄成功了，我們將從bitbucket dashboard頁面上執行真正的爬取操作。

Python

url = '/overview'

result = session_requests.get(

url,

headers = dict(referer = url)

)

為了測試以上內容，我們從 bitbucket dashboard 頁面上爬取了項目列表。我們將再次使用 xpath 來查找目標元素，清除新行中的文本和空格並列印出結果。如果一切都運行 OK，輸出結果應該是你 bitbucket 賬戶中的 buckets / project 列表。

Python

tree = html.fromstring(result.content)

bucket_elems = tree.findall(".//span[@class='repo-name']/")

bucket_names = [bucket.text_content.replace("n", "").strip() for bucket in bucket_elems]

print bucket_names

你也可以通過檢查從每個請求返回的狀態代碼來驗證這些請求結果。它不會總是能讓你知道登錄階段是否是成功的，但是可以用來作為一個驗證指標。

例如：

Python

result.ok # 會告訴我們最後一次請求是否成功

result.status_code # 會返回給我們最後一次請求的狀態

導航:首頁 > 編程語言 > python爬蟲如何輸入網址

python爬蟲如何輸入網址

與python爬蟲如何輸入網址相關的資料