python爬蟲安裝什麼庫_Python什麼爬蟲庫好用

① 爬蟲概念以及requests的介紹

網路爬蟲是一種按照擾並一定的規則，自動地抓取萬維網信息的程序或者腳本。
爬蟲的用途：爬取的數據可以用作機器學習緩轎跡的數據集；競爭對手監控；輿情監控等。
爬蟲可分為3個部分，分別為數據爬取（requests、urllib、pycurl）帆賣，數據解析，數據存儲。

requests庫特點：簡單、簡潔，是python的第三方庫，也是網路爬蟲常用的庫。
requests庫安裝方法：pip install requests

requests.get(url,params=None,**kwargs)構造一個向伺服器請求資源的Request對象，返回一個包含伺服器資源的Response對象。
url:獲取頁面的url鏈接
params:url中的額外參數，字典或位元組流格式，可選
**kwargs:2個控制訪問的參數
Response對象的屬性：

② python爬蟲常用解析庫lxml、pyquery、bs4、re執行效率對比

我們知道毀扮緩python爬蟲的解析庫有很多，我們選取了lxml，bs4，re，pyquery，進行測試纖模。

測試環境：本人用的是台式電腦進行缺啟的測試，win10系統配置為i5，16G內存(ddr3)，不同的電腦跟網路環境直接影響解析速度，在相同的環境下，時間浮動不會太大

③ python爬蟲數據存到非本地mysql

pymysql 基本使用八個步驟以及案例分析

一.導入pymysql模塊

導入pymysql之前需要先安裝pymysql模塊
方法一:直接在pycharm編譯器裡面輸入 pip install pymysql

方法二:win+r --> 輸入cmd -->在裡面輸入差局pip install pymysql

ps:在cmd中輸入pip list後回車可以找到安裝的pymysql就表示安裝成功了
1
2
3
4
5
6
1
2
3
4
5
6
在pycharm編譯器中導入
import pymysql
1
2
1
2
二.獲取到database的鏈接對象

coon = pymysql.connect(host='127.0.0.1', user='root', password='123456', database='pymysql_test')
1
1
user:是你的資料庫用戶名
password:資料庫密碼
database:你已經創建好的資料庫
1
2
3
1
2
3
三.創建數據表的方法

cursor.execute(
'''create table if not exists pets(id int primary key auto_increment,
src varchar(50),
skill varchar(100)''')
1
2
3
4
1
2
3
4
四.獲取執行sql語句的游標對象

cousor = coon.cousor()
1
1
五.定義要執行的sql語句

1.sql的增加數據的方法

sql = '''insert into test_mysql(id,src,skill) values(%d,%s,%s)'''
1
1
ps: test_mysql 是你連接到的資料庫中拆世的一張表
id,src,skill 這個是你創建表時所定義的欄位關鍵字
%d,%s,%s 這個要根據你創建的欄位關鍵字的類型而定,記住要一一對應
1
2
3
1
2
3
2.sql的刪除數據的方法

sql_1 = '''delete from test_mysql where src=%s;'''
1
1
3.sql的修改數據方法

sql_2 = '''update test_mysql set src=%s where skill=%s;'
1
1
4.sql的查詢方法

sql_3 = '''select * from test_mysql where skill = %s'''
1
1
六.通過游標對象執行sql語句

1.執行增加數據的sql語句

cousor.execute(sql, [2, 'www.sohu.com', '000000'])
運行後在旅慶肢mysql的可視化後台就可以直觀的添加的數據
1
2
1
2
2.執行刪除數據sql語句

new = 'www..com'
cousor.execute(sql_1, [new])
PS:這里就是根據sql語句where後面的條件進行刪除對應的數據
要記住傳入的數據要與sql的where後面條件匹配
1
2
3
4
1
2
3
4
3.執行修改數據的sql語句

url = 'www..com'
pwd = '666666'
cousor.execute(sql_2,[pwd,url])
1
2
3
1
2
3
4.執行查詢數據的sql語句

result1 = cousor.fetchone()
fetchone() 查詢=整個表中的第一條數據,
如果再次使用就會查找到第二條數據,
還可以在括弧內輸入id值查詢到相應的數據

result2 = cousor.fetchmany()
fetchmany()查詢到表裡的多條數據,
在括弧里輸入幾就會查找到表的前幾條數據

result2 = cousor.fetchall()
fetchall()查詢到sql查詢匹配到的所有數據

print(result)
用print輸出語句就能直接列印輸出所查詢到的數據

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
**總結: 在執行sql語句要傳入參數時,這個參數要以列表或者元組的類型傳入**
1
1
七.關閉游標對象

cousor.close()
1
1
八.關閉資料庫的鏈接對象

coon.cousor()
1
1
九.洛克王國寵物數據抓取案例

import requests
import pymysql
from lxml import etree
from time import sleep

# 資料庫鏈接
conn = pymysql.connect(host='127.0.0.1', user='root', password='123456', database='pymysql')
cursor = conn.cursor()
# 執行一條創建表的操作
cursor.execute(
'''create table if not exists pets(id int primary key auto_increment,name varchar(50),src varchar(100),instry text)''')

url = 'http://news.4399.com/luoke/luokechongwu/'

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}

response = requests.get(url=url, headers=headers)
response.encoding = 'gbk'

html = response.text
# print(html)

# 寵物名稱
# 寵物圖片(圖片在 lz_src)
# 寵物技能(跳轉詳細頁)

tree = etree.HTML(html)

li_list = tree.xpath('//ul[@id="cwdz_list"]/li') # 所有的寵物
for li in li_list:
name = li.xpath('./@name')[0] # 每一個寵物的名稱
src = 'http:' + li.xpath('./a/img/@lz_src')[0] # 圖片鏈接
link = 'http://news.4399.com' + li.xpath('./a/@href')[0] # 寵物的詳細鏈接
instry = [] # 數組裡面存放每一個對象,每一個對象就是一個技能

# 對詳細鏈接發起請求,獲取技能
try:
detail_resp = requests.get(url=link, headers=headers)
sleep(0.5)
detail_resp.encoding = 'gbk'
detail_tree = etree.HTML(detail_resp.text)

# 技能
skills = detail_tree.xpath('/html/body/div[5]/div[2]/div[2]/div[1]/div[1]/table[4]/tbody/tr')
del skills[0]
del skills[0]

for skill in skills:
item = {}
item['name'] = skill.xpath('./td[1]/text()')[0] # 技能
item['grade'] = skill.xpath('./td[2]/text()')[0] # 等級
item['property'] = skill.xpath('./td[3]/text()')[0] # 屬性
item['type'] = skill.xpath('./td[4]/text()')[0] # 類型
item['target'] = skill.xpath('./td[5]/text()')[0] # 目標
item['power'] = skill.xpath('./td[6]/text()')[0] # 威力
item['pp'] = skill.xpath('./td[7]/text()')[0] # pp
item['result'] = skill.xpath('./td[8]/text()')[0] # 效果
instry.append(item)
# print(instry)

# 數據保存 (mysql)
sql = '''insert into pets(name,src,instry) values (%s,%s,%s);'''
cursor.execute(sql, [name, src, str(instry)])
conn.commit()
print(f'{name}--保存成功!')
except Exception as e:
pass
cursor.close()
conn.close()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
十.總結

本章內容主要是給大家講解一下在爬蟲過程中如何將數據保存mysql資料庫中去,
最後面這個案例就是一個示範,希望這篇文章能給大家帶來幫助,都看到這里了給
個三連支持一下吧!!!
1
2
3
1
2
3

④ python爬蟲用什麼庫

以下是爬蟲經常用到的庫

請求庫

1. requests

requests庫應該是現在做爬蟲最火最實用的庫了，非常的人性化。有關於它的使用我之前也寫過一篇文章一起看看Python之Requests庫，大家可以去看一下。

2.urllib3

urllib3是一個非常強大的http請求庫，提供一系列的操作URL的功能。

3.selenium

自動化測試工具。一個調用瀏覽器的 driver，通過這個庫你可以直接調用瀏覽器完成某些操作，比如輸入驗證碼。

對於這個庫並非只是Python才能用，像JAVA、Python、C#等都能夠使用selenium這個庫

4.aiohttp

基於 asyncio 實現的 HTTP 框架。非同步操作藉助於 async/await 關鍵字，使用非同步庫進行數據抓取，可以大大提高效率。

這個屬於進階爬蟲時候必須掌握的非同步庫。有關於aiohttp的詳細操作，可以去官方文檔：https://aiohttp.readthedocs.io/en/stable/

Python學習網- 專業的python自學、交流公益平台！

解析庫

1、beautifulsoup

html 和 XML 的解析,從網頁中提取信息，同時擁有強大的API和多樣解析方式。一個我經常使用的解析庫，對於html的解析是非常的好用。對於寫爬蟲的人來說這也是必須掌握的庫。

2、lxml

支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。

3、pyquery

jQuery 的 Python 實現，能夠以 jQuery 的語法來操作解析 HTML 文檔，易用性和解析速度都很好。

數據存儲

1、pymysql

官方文檔：https://pymysql.readthedocs.io/en/latest/

一個純 Python 實現的 MySQL 客戶端操作庫。非常的實用、非常的簡單。

2、pymongo

官方文檔：https://api.mongodb.com/python/

顧名思義，一個用於直接連接 mongodb 資料庫進行查詢操作的庫。

3、redismp

redis-mp是將redis和json互轉的工具；redis-mp是基於ruby開發，需要ruby環境，而且新版本的redis-mp要求2.2.2以上的ruby版本，centos中yum只能安裝2.0版本的ruby。需要先安裝ruby的管理工具rvm安裝高版本的ruby。

⑤ python3.5和python3.6對request庫的支持

requests庫是一個常用的用於http請求的模塊，它使用python語言編寫，可以方便的對網頁進行爬取，是學習python爬蟲的較好的http請求模塊。

_ip命令安裝

_indows系統下只需要在命令行輸入命令 pip install requests 即可安裝

_? linux 系統下，只需要輸入命令 sudo pip install requests ，即可安裝。

⑥ Python 常用的標准庫以及第三方庫有哪些

參考：知乎
Python 常用的標准庫以及第三方庫

standard libs:

itertools

functools 學好python有必要掌握上面這兩個庫吧，
re 正則
subprocess 調用shell命令的神器
pdb 調試
traceback 調試
pprint 漂亮的輸出
logging 日誌
threading和multiprocessing 多線程
urllib/urllib2/httplib http庫，httplib底層一點，推薦第三方的庫requests
os/sys 系統，環境相關
Queue 隊列
pickle/cPickle 序列化工具
hashlib md5, sha等hash演算法
cvs
json/simplejson python的json庫，據so上的討論和benchmark，simplejson的性能要高於json
timeit 計算代碼運行的時間等等
cProfile python性能測量模塊
glob 類似與listfile，可以用來查找文件
atexit 有一個注冊函數，可用於正好在腳本退出運行前執行一些代碼
dis python 反匯編，當對某條語句不理解原理時，可以用dis.dis 函數來查看代碼對應的python 解釋器指令等等。

3th libs:

paramiko ssh python 庫
selenium 瀏覽器自動化測試工具selenium的python 介面
lxml python 解析html,xml 的神器
mechanize Stateful programmatic web browsing

pycurl cURL library mole for Python
Fabric Fabric is a Python (2.5 or higher) library and command-line tool for streamlining the use of SSH for application deployment or systems administration tasks.

xmltodict xml 轉 dict，真心好用
urllib3 和 requests: 當然其實requests就夠了 Requests: HTTP for Humans
flask web 微框架
ipdb 調試神器，同時推薦ipython！結合ipython使用
redis redis python介面
pymongo mongodbpython介面
PIL python圖像處理
mako python模版引擎
numpy ， scipy 科學計算
matplotlib 畫圖

scrapy 爬蟲
django/tornado/web.py/web2py/uliweb/flask/twisted/bottle/cherrypy.等等 python web框架/伺服器
sh 1.08 — sh v1.08 documentation 用來運行shell 模塊的極佳選擇

⑦ python爬蟲用什麼框架

python爬蟲框架概述
爬蟲框架中比較好用的是 Scrapy 和PySpider。pyspider上手更簡單，操作更加簡便，因為它增加了 WEB 界面，寫爬蟲迅速，集成了phantomjs，可以用來抓取js渲染的頁面。Scrapy自定義程度高，比 PySpider更底層一些，適合學習研究，需要學習的相關知識多，不過自己拿來研究分布式和多線程等等是非常合適的。
PySpider
PySpider是binux做的一個爬蟲架構的開源化實現。主要的功能需求是：
抓取、更新調度多站點的特定的頁面
需要對頁面進行結構化信息提取
靈活可擴展，穩定可監控
pyspider的設計基礎是：以python腳本驅動的抓取環模型爬蟲
通過python腳本進行結構化信息的提取，follow鏈接調度抓取控制，實現最大的靈活性
通過web化的腳本編寫、調試環境。web展現調度狀態
抓取環模型成熟穩定，模塊間相互獨立，通過消息隊列連接，從單進程到多機分布式靈活拓展
pyspider的架構主要分為 scheler（調度器）, fetcher（抓取器）, processor（腳本執行）：
各個組件間使用消息隊列連接，除了scheler是單點的，fetcher 和 processor 都是可以多實例分布式部署的。 scheler 負責整體的調度控制
任務由 scheler 發起調度，fetcher 抓取網頁內容， processor 執行預先編寫的python腳本，輸出結果或產生新的提鏈任務（發往 scheler），形成閉環。
每個腳本可以靈活使用各種python庫對頁面進行解析，使用框架API控制下一步抓取動作，通過設置回調控制解析動作。
Scrapy
Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。
其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化測試
Scrapy主要包括了以下組件：
引擎(Scrapy): 用來處理整個系統的數據流處理, 觸發事務(框架核心)
調度器(Scheler): 用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL（抓取網頁的網址或者說是鏈接）的優先隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重復的網址
下載器(Downloader): 用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)
爬蟲(Spiders): 爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面
項目管道(Pipeline): 負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析後，將被發送到項目管道，並經過幾個特定的次序處理數據。
下載器中間件(Downloader Middlewares): 位於Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及響應。
爬蟲中間件(Spider Middlewares): 介於Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。
調度中間件(Scheler Middewares): 介於Scrapy引擎和調度之間的中間件，從Scrapy引擎發送到調度的請求和響應。
Scrapy運行流程大概如下：
首先，引擎從調度器中取出一個鏈接(URL)用於接下來的抓取
引擎把URL封裝成一個請求(Request)傳給下載器，下載器把資源下載下來，並封裝成應答包(Response)
然後，爬蟲解析Response
若是解析出實體（Item）,則交給實體管道進行進一步的處理。
若是解析出的是鏈接（URL）,則把URL交給Scheler等待抓取

⑧ python有哪些庫

Python中6個最重要的庫：

第一、NumPy

NumPy是Numerical
Python的簡寫，是Python數值計算的基石。它提供多種數據結構、演算法以及大部分涉及Python數值計算所需的介面。NumPy還包括其他內容：

①快速、高效的多維數組對象ndarray

②基於元素的數組計算或數組間數學操作函數

③用於讀寫硬碟中基於數組的數據集的工具

④線性代數操作、傅里葉變換以及隨機數生成

除了NumPy賦予Python的快速數組處理能力之外，NumPy的另一個主要用途是在演算法和庫之間作為數據傳遞的數據容器。對於數值數據，NumPy數組能夠比Python內建數據結構更為高效地存儲和操作數據。

第二、pandas

pandas提供了高級數據結構和函數，這些數據結構和函數的設計使得利用結構化、表格化數據的工作快速、簡單、有表現力。它出現於2010年，幫助Python成為強大、高效的數據分析環境。常用的pandas對象是DataFrame，它是用於實現表格化、面向列、使用行列標簽的數據結構;以及Series，一種一維標簽數組對象。

pandas將表格和關系型資料庫的靈活數據操作能力與Numpy的高性能數組計算的理念相結合。它提供復雜的索引函數，使得數據的重組、切塊、切片、聚合、子集選擇更為簡單。由於數據操作、預處理、清洗在數據分析中是重要的技能，pandas將是重要主題。

第三、matplotlib

matplotlib是最流行的用於制圖及其他二維數據可視化的Python庫，它由John D.
Hunter創建，目前由一個大型開發者團隊維護。matplotlib被設計為適合出版的制圖工具。

對於Python編程者來說也有其他可視化庫，但matplotlib依然使用最為廣泛，並且與生態系統的其他庫良好整合。

第四、IPython

IPython項目開始於2001年，由Fernando
Pérez發起，旨在開發一個更具交互性的Python解釋器。在過去的16年中，它成為Python數據技術棧中最重要的工具之一。

盡管它本身並不提供任何計算或數據分析工具，它的設計側重於在交互計算和軟體開發兩方面將生產力最大化。它使用了一種執行-探索工作流來替代其他語言中典型的編輯-編譯-運行工作流。它還提供了針對操作系統命令行和文件系統的易用介面。由於數據分析編碼工作包含大量的探索、試驗、試錯和遍歷，IPython可以使你更快速地完成工作。

第五、SciPy

SciPy是科學計算領域針對不同標准問題域的包集合。以下是SciPy中包含的一些包：

①scipy.integrate數值積分常式和微分方程求解器

②scipy.linalg線性代數常式和基於numpy.linalg的矩陣分解

③scipy.optimize函數優化器和求根演算法

④scipy.signal信號處理工具

⑤scipy.sparse稀疏矩陣與稀疏線性系統求解器

SciPy與Numpy一起為很多傳統科學計算應用提供了一個合理、完整、成熟的計算基礎。

第六、scikit-learn

scikit-learn項目誕生於2010年，目前已成為Python編程者首選的機器學習工具包。僅僅七年，scikit-learn就擁有了全世界1500位代碼貢獻者。其中包含以下子模塊：

①分類：SVM、最近鄰、隨機森林、邏輯回歸等

②回歸：Lasso、嶺回歸等

③聚類：K-means、譜聚類等

④降維：PCA、特徵選擇、矩陣分解等

⑤模型選擇：網格搜索、交叉驗證、指標矩陣

⑥預處理：特徵提取、正態化

scikit-learn與pandas、statsmodels、IPython一起使Python成為高效的數據科學編程語言。

⑨ Python什麼爬蟲庫好用

請求庫：
1. requests 這個庫是爬蟲最常用的一個庫
2. Selenium Selenium 是一個自動化測試工具，利用它我們可以驅動瀏覽器執行特定的動作，如點擊、下拉等操作對於一些用JS做誼染的頁面來說，這種抓取方式是非常有效的。
3.ChomeDrive 安裝了這個庫，才能驅動Chrome瀏覽器完成相應的操作
4.GeckoDriver 使用W3C WebDriver兼容客戶端與基於Gecko的瀏覽器進行交互的代理。
5.PhantomJS PhantomJS 是一個無界面、可腳本編程的 WebKit 瀏覽器引擎，它原生支持多種Web標准：Dom操作，css選擇器，json，Canvas以及SVG。
6.aiohttp 之前接收requests庫是一個阻塞式HTTP請求庫，當我們發送一個請求後。程序會一直等待伺服器響應，直到伺服器響應後，程序才會最下一步處理。其實，這個過程比較耗時間。如果程序可以在等待的過程中做一些其他的事情，如進行請求的調度，響應的處理等，那麼爬蟲的效率就會比之前的那種方式有很大的提升。而aiohttp就是這樣一個提供非同步web服務的庫。使用說這個庫用起來還是相當方便的。
解析庫：
1.lxml lxml是python的一個解析庫，這個庫支持HTML和xml的解析，支持XPath的解析方式，而且效率也是非常高的，深受廣大程序員的熱愛
2.Beautiful Soup Beautiful Soup也是python里一個HTML或XMl的解析庫，它可以很方便的懂網頁中提取數據，擁有強大的API和多種解析方式。
3.pyquery 同樣是一個強大的網頁解析工具，它提供了和 jQuery 類似的語法來解析HTML 文梢，

資料庫：
1.mysql 資料庫
2.MongoDB Mo goDB 是由＋＋語言編寫的非關系型資料庫，是一個基於分布式文件存儲的開源資料庫系統內容存儲形式類似 JSON 對象，它的欄位值可以包含其他文檔、數組及文檔數組，非常靈活
3.Redis 是一個基於存的高效的非關系型資料庫，

存儲庫：
1.PyMySOL
2.PyMongo
3.redis-py
4.RedisDump

web庫：
1.Flask 是一個輕量級的Web服務程序，它簡單，易用，靈活
2.Tornado 是一個支持非同步的Web框架，通過使用非阻塞I/O流，可以支持成千上萬的開放式連接。

⑩ Python什麼爬蟲庫好用

aiohttp：是純粹的非同步框架，同時支持HTTP客戶端和服務端，可以快速實現非同步爬蟲，並且其中的aiohttp解決了requests的一個痛點，它可以輕松實現自動轉碼，對於中文編碼就很方便了。
asks：Python自帶一個非同步的標准庫asyncio，但這個庫很多人覺得並不好用，而裡面的ask則是封裝了curio和trio的一個http請求庫。用起來和
Requests 90%相似，新手也可以很快上手。
vibora：號稱是現在最快的非同步請求框架，跑分是最快的。寫爬蟲、寫伺服器響應都可以用。但這個項目一直在重構，現在頁面上還掛著項目正在重構的警告，使用需謹慎。
Pyppeteer：是非同步無頭瀏覽器，從跑分來看比Selenium+webdriver快，使用方式是最接近於瀏覽器的自身的設計介面的。它本身是來自
Google維護的puppeteer，但是按照Python社區的梗，作者進行了封裝並且把名字中的u改成了y。
下面為大家介紹一下框架：
Grab：是很流行的漸進式框架，Grab可以說是爬蟲界的漸進式框架，又十分簡單的用法，封裝的也很好，是基於生成器非同步的設計。
botflow：概念很新穎，定位成了處理數據工作流的框架，可以用來爬蟲、機器學習、量化交易等等。
ruia：比較接近Scrapy的使用方式，非同步設計。

導航:首頁 > 編程語言 > python爬蟲安裝什麼庫

python爬蟲安裝什麼庫

與python爬蟲安裝什麼庫相關的資料