利用python爬取用戶信息_如何入門 python 爬蟲

① 如何用 python 爬取需要登錄的網站

最近我必須執行一項從一個需要登錄的網站上爬取一些網頁的操作。它沒有我想像中那麼簡單，因此我決定為它寫一個輔助教程。

在本教程中，我們將從我們的bitbucket賬戶中爬取一個項目列表。

教程中的代碼可以從我的 Github 中找到。

我們將會按照以下步驟進行：

提取登錄需要的詳細信息
執行站點登錄
爬取所需要的數據

在本教程中，我使用了以下包（可以在 requirements.txt 中找到）：

Python
requests
lxml
1
2

requests
lxml

步驟一：研究該網站
打開登錄頁面

進入以下頁面「bitbucket.org/account/signin」。你會看到如下圖所示的頁面（執行注銷，以防你已經登錄）

仔細研究那些我們需要提取的詳細信息，以供登錄之用

在這一部分，我們會創建一個字典來保存執行登錄的詳細信息：

1. 右擊「Username or email」欄位，選擇「查看元素」。我們將使用「name」屬性為「username」的輸入框的值。「username」將會是 key 值，我們的用戶名/電子郵箱就是對應的 value 值（在其他的網站上這些 key 值可能是「email」，「 user_name」，「 login」，等等）。

2. 右擊「Password」欄位，選擇「查看元素」。在腳本中我們需要使用「name」屬性為「password」的輸入框的值。「password」將是字典的 key 值，我們輸入的密碼將是對應的 value 值（在其他網站key值可能是「userpassword」，「loginpassword」，「pwd」，等等）。

3. 在源代碼頁面中，查找一個名為「csrfmiddlewaretoken」的隱藏輸入標簽。「csrfmiddlewaretoken」將是 key 值，而對應的 value 值將是這個隱藏的輸入值（在其他網站上這個 value 值可能是一個名為「csrftoken」，「 authenticationtoken」的隱藏輸入值）。列如：「」。

最後我們將會得到一個類似這樣的字典：

Python
payload = {
"username": "<USER NAME>",
"password": "<PASSWORD>",
"csrfmiddlewaretoken": "<CSRF_TOKEN>"
}
1
2
3
4
5

payload = {
"username": "<USER NAME>",
"password": "<PASSWORD>",
"csrfmiddlewaretoken": "<CSRF_TOKEN>"
}

請記住，這是這個網站的一個具體案例。雖然這個登錄表單很簡單，但其他網站可能需要我們檢查瀏覽器的請求日誌，並找到登錄步驟中應該使用的相關的 key 值和 value 值。

② 如何入門 python 爬蟲

看一些簡單的視頻。Python作為一種高級編程語言，在2018年世界腳本語言列表中排名第一，也是許多領域的首選語言。

無論是從入門級選手到專業級選手都在做的爬蟲，還是Web 程序開發、桌面程序開發還是科學計算、圖像處理，Python都可以勝任。

Python基於清晰的語法和直觀的問題解決方案還有其強大的跨平台GUI工具，也是激起許多小白初學者興趣的重要條件，相比於其他語言，Python效率極高，程序包含的代碼行更少，代碼也更容易閱讀、調試和擴展。

③ 如何用python爬取網站數據

這里簡單介紹一下吧，以抓取網站靜態、動態2種數據為慧返拍例，實驗環境win10+python3.6+pycharm5.0，主要內容如下：

抓取網站靜態數據（數據在網頁源碼中）：以糗事網路網站數據為例

1.這里假設我們抓取的數據如下，主要包括用戶昵稱、內容、好笑數和評論數這4個欄位，如下：

對應的網頁源碼如下，包含我們所需要的數據：

2.對應網頁結構，主要代碼如下，很簡單，主要用到requests+BeautifulSoup，其中requests用於請求頁面，BeautifulSoup用於解析頁面：

程序運行截圖如下，已經成功爬取到數據：

抓取網站動態數據（數據不在網頁源碼中，json等文件中）：以人人貸網站數據為例

1.這里假設我們爬取的是債券數據，主要包括年利率世型、借款標題、期限、金額和進度這5個欄位信息，截圖如下：

打開網頁源碼中，可以發現數據不在網頁源碼中，按F12抓包分析時，才發現在一個json文件中，如下：

2.獲取到json文件的url後，我們就可以爬取對應數據了，這里使用的包與上面類似，因為是json文件，所以還用了json這個包（解析json），主要內容如下：

程序運行截圖如下，前羨已經成功抓取到數據：

至此，這里就介紹完了這2種數據的抓取，包括靜態數據和動態數據。總的來說，這2個示例不難，都是入門級別的爬蟲，網頁結構也比較簡單，最重要的還是要會進行抓包分析，對頁面進行分析提取，後期熟悉後，可以藉助scrapy這個框架進行數據的爬取，可以更方便一些，效率更高，當然，如果爬取的頁面比較復雜，像驗證碼、加密等，這時候就需要認真分析了，網上也有一些教程可供參考，感興趣的可以搜一下，希望以上分享的內容能對你有所幫助吧。

④ python爬蟲項目實戰：爬取用戶的所有信息，如性別、年齡等

python爬蟲項目實戰：
爬取糗事網路用戶的所有信息，包括用戶名、性別、年齡、內容等等。

10個步驟實現項目功能，下面開始實例講解：
1.導入模塊
import re
import urllib.request
from bs4 import BeautifulSoup
2.添加頭文件，防止爬取過程被拒絕鏈接
def qiuShi(url,page):
################### 模擬成高仿度瀏覽器的行為 ##############

heads ={
'Connection':'keep-alive',
'Accept-Language':'zh-CN,zh;q=0.9',
'Accept':'text/html,application/xhtml+xml,application/xml;
q=0.9,image/webp,image/apng, / ;q=0.8',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}
headall = []
for key,value in heads.items():
items = (key,value)

headall.append(items)

opener = urllib.request.build_opener()

opener.addheaders = headall

urllib.request.install_opener(opener)

data = opener.open(url).read().decode()

################## end ########################################
3.創建soup解析器對象
soup = BeautifulSoup(data,'lxml')
x = 0
4.開始使用BeautifulSoup4解析器提取用戶名信息
############### 獲取用戶名 ########################
name = []

unames = soup.find_all('h2')

for uname in unames:

name.append(uname.get_text())

#################end#############################
5.提取發表的內容信息
############## 發表的內容 #########################
cont = []
data4 = soup.find_all('div',class_='content')

data4 = str(data4)

soup3 = BeautifulSoup(data4,'lxml')
contents = soup3.find_all('span')
for content in contents:

cont.append(content.get_text())

##############end####################################
6.提取搞笑指數
#################搞笑指數##########################
happy = []

data2 = soup.find_all('span',class_="stats-vote")

data2 = str(data2) # 將列表轉換成字元串形式才可以使用

soup1 = BeautifulSoup(data2,'lxml')
happynumbers = soup1.find_all('i',class_="number")
for happynumber in happynumbers:

happy.append(happynumber.get_text())

##################end#############################
7.提取評論數
############## 評論數 ############################
comm = []
data3 = soup.find_all('a',class_='qiushi_comments')
data3 = str(data3)

soup2 = BeautifulSoup(data3,'lxml')
comments = soup2.find_all('i',class_="number")
for comment in comments:

comm.append(comment.get_text())
############end#####################################
8.使用正則表達式提取性別和年齡
######## 獲取性別和年齡 ##########################

pattern1 = '<div class="articleGender (w ?)Icon">(d ?)</div>'
sexages = re.compile(pattern1).findall(data)

9.設置用戶所有信息輸出的格局設置
################## 批量輸出用戶的所以個人信息 #################
print()
for sexage in sexages:
sa = sexage
print(' ' 17, '= = 第', page, '頁-第', str(x+1) + '個用戶 = = ',' ' 17)

print('【用戶名】：',name[x],end='')

print('【性別】：',sa[0],' 【年齡】：',sa[1])

print('【內容】：',cont[x])

print('【搞笑指數】：',happy[x],' 【評論數】：',comm[x])
print(' ' 25,' 三八分割線 ',' ' 25)
x += 1
###################end##########################
10.設置循環遍歷爬取13頁的用戶信息
for i in range(1,14):

url = ' https://www.qiushike.com/8hr/page/'+str(i)+'/'
qiuShi(url,i)
運行結果，部分截圖：

⑤ python爬蟲有幾種方式我知道可以用webdriver，urllib，requests這幾種方法。

要全部羅列出來還真挺困難，很多非主流的模塊也可以做爬蟲。
大致分成3類：
1、類似urllib，requests，需要自行構造請求，組織url關聯，抓取到的數據也要自行考慮如何保存。
2、類似selenium,模擬瀏覽器，大多用於爬取一些動態的網頁內容，需要模擬點擊，下拉等操作等。
3、類似scrapy 爬蟲框架，相對來說更簡單，進行一些配置，組織爬取的邏輯即可。

⑥ python爬蟲沒有用戶名密碼

python爬蟲沒有用戶名密碼可以這樣做:
1.1 使用表單登陸
這種情況屬於post請求，即先向伺服器發送表單數據，伺服器再將返回的cookie存入本地。
1.2 使用cookie登陸
使用cookie登陸，伺服器會認為你是一個已登陸的用戶，所以就會返回給你一個已登陸的內容。因此，需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。
則需要採用cookie登陸。
配置文件config.ini，其中包括用戶名密碼信息，如果有驗證碼情況，需要手動登陸一次網站獲取cookie信息。
判斷登陸成功與否，看生成的html文件中有沒有用戶信息。

導航:首頁 > 編程語言 > 利用python爬取用戶信息

利用python爬取用戶信息

與利用python爬取用戶信息相關的資料