pythonxpath模塊安裝_python爬蟲需要安裝哪些庫

1. 如何在python中使用xpath

在進行網頁抓取的時候，分析定位html節點是獲取抓取信息的關鍵，目前我用的是lxml模塊(用來分析XML文檔結構的，當然也能分析html結構)，利用其lxml.html的xpath對html進行分析，獲取抓取信息。
首先，我們需要安裝一個支持xpath的python庫。目前在libxml2的網站上被推薦的python binding是lxml，也有beautifulsoup，不嫌麻煩的話還可以自己用正則表達式去構建，本文以lxml為例講解。
假設有如下的HTML文檔:

1 <html>
2 <body>
3 <form>
4 <div id='leftmenu'>
5 <h3>text</h3>
6 <ul id=』china』>
7 <li>...</li>
8 <li>...</li>
9 ......
10 </ul>
11 <ul id=』england』>
12 <li>...</li>
13 <li>...</li>
14 ......
15 </ul>
16 </div>
17 </form>
18 </body>
19 </html>

直接使用lxml處理：
1 import codecs
2 from lxml import etree
3 f=codecs.open("ceshi.html","r","utf-8")
4 content=f.read()
5 f.close()
6 tree=etree.HTML(content)

etree提供了HTML這個解析函數，現在我們可以直接對HTML使用xpath了，是不是有點小激動，現在就嘗試下吧。

在使用xpath之前我們先來看看作為對照的jQuery和RE。
在jQuery里要處理這種東西就很簡單，特別是假如那個ul節點有id的話（比如是<ul id=』china』>）：
$("#china").each(function(){...});

具體到此處是：
$("#leftmenu").children("h3:contains('text')").next("ul").each(function(){...});

找到id為leftmenu的節點，在其下找到一個內容包含為」text」的h3節點，再取其接下來的一個ul節點。
在python里要是用RE來處理就略麻煩一些：
block_pattern=re.compile(u"<h3>檔案</h3>(.*?)<h3>", re.I | re.S)
m=block_pattern.findall(content)
item_pattern=re.compile(u"<li>(.*?)</li>", re.I | re.S)
items=item_pattern.findall(m[0])
for i in items:
print i

那麼用xpath要怎麼做呢？其實跟jQuery是差不多的：
nodes=tree.xpath("/descendant::ul[@id='china']")

當然，現在沒有id的話也就只能用類似於jQuery的方法了。完整的xpath應該是這樣寫的（注意，原文件中的TAG有大小寫的情況，但是在XPATH里只能用小寫）：
nodes=tree.xpath(u"/html/body/form/div[@id='leftmenu']/h3[text()='text']/following-sibling::ul[1]")

更簡單的方法就是像jQuery那樣直接根據id定位：
nodes=tree.xpath(u"//div[@id='leftmenu']/h3[text()='text']/following-sibling::ul[1]")

這兩種方法返回的結果中，nodes[0]就是那個「text」的h3節點後面緊跟的第一個ul節點,這樣就可以列出後面所有的ul節點內容了。
如果ul節點下面還有其他的節點，我們要找到更深節點的內容，如下的循環就是把這些節點的文本內容列出：
nodes=nodes[0].xpath("li/a")
for n in nodes:
print n.text

對比三種方法應該可以看出xpath和jQuery對於頁面的解析都是基於XML的語義進行，而RE則純粹是基於plain text。RE對付簡單的頁面是沒有問題，如果頁面結構復雜度較高的時候（比如一堆的DIV來回嵌套之類），設計一個恰當的RE pattern可能會遠比寫一個xpath要復雜。特別是目前主流的基於CSS的頁面設計方式，其中大部分關鍵節點都會有id――對於使用jQuery的頁面來說則更是如此，這時xpath相比RE就有了決定性的優勢。

附錄：基本XPATH語法介紹，詳細請參考XPath的官方文檔
XPATH基本上是用一種類似目錄樹的方法來描述在XML文檔中的路徑。比如用「/」來作為上下層級間的分隔。第一個「/」表示文檔的根節點（注意，不是指文檔最外層的tag節點，而是指文檔本身）。比如對於一個HTML文件來說，最外層的節點應該是」/html」。
同樣的，「..」和「.」分別被用來表示父節點和本節點。
XPATH返回的不一定就是唯一的節點，而是符合條件的所有節點。比如在HTML文檔里使用「/html/head/scrpt」就會把head里的所有script節點都取出來。
為了縮小定位范圍，往往還需要增加過濾條件。過濾的方法就是用「[」「]」把過濾條件加上。比如在HTML文檔里使用「/html/body/div[@id='main']」，即可取出body里id為main的div節點。
其中@id表示屬性id，類似的還可以使用如@name, @value, @href, @src, @class….
而函數text()的意思則是取得節點包含的文本。比如：<div>hello<p>world</p>< /div>中，用」div[text()='hello']「即可取得這個div，而world則是p的text()。
函數position()的意思是取得節點的位置。比如「li[position()=2]」表示取得第二個li節點，它也可以被省略為「li[2]」。
不過要注意的是數字定位和過濾條件的順序。比如「ul/li[5][@name='hello']」表示取ul下第五項li，並且其name必須是hello，否則返回空。而如果用「ul/li[@name='hello'][5]」的意思就不同，它表示尋找ul下第五個name為」hello「的li節點。
此外，「*」可以代替所有的節點名，比如用」/html/body/*/span」可以取出body下第二級的所有span，而不管它上一級是div還是p或是其它什麼東東。
而「descendant::」前綴可以指代任意多層的中間節點，它也可以被省略成一個「/」。比如在整個HTML文檔中查找id為「leftmenu」的 div，可以用「/descendant::div[@id='leftmenu']」，也可以簡單地使用「 //div[@id='leftmenu']」。
至於「following-sibling::」前綴就如其名所說，表示同一層的下一個節點。」following-sibling::*」就是任意下一個節點，而「following-sibling::ul」就是下一個ul節點。

2. Python3.10版 Win1064位無法安裝lxml庫

在練習xpath時,需要安裝lxml模塊,報錯需要 Microsoft Visual C++ 14.0 吐槽一些教程:pip install wheel,安裝無效果的環境 window 10 python3 重裝系統後,安裝了最新的Python3.8.1,當使用pip安裝lxml庫的時候報錯Microsoft Visual C++ 14.0 is required,

前提是：1.已安裝python，2. 已安裝好pip，3.已將python安裝目錄下的scripts目錄（如D:\Python35\Scripts）添加到系統環境變數path里。

方法一：打開cmd，輸入pip install lxml。如果安裝成功的話，可以不用往下看了，人品太好了。通常呢，都會遇到各種錯誤，不是這不對，就是那裡錯，反正就是各種安裝不了。

方絕螞含法二：基本上，進到這里來看的人，應該都是已經掉到坑裡的，所以直接從這里看起就可以。推並笑薦通過物宴lxml的.whl文件來進行安裝。

3. python爬蟲需要安裝哪些庫

一、請求庫

1. requests
requests 類庫是第三方庫，比 Python 自帶的 urllib 類庫使用方便和

2. selenium
利用它執行瀏覽器動作，模擬操作。
3. chromedriver
安裝chromedriver來驅動chrome。

4. aiohttp
aiohttp是非同步請求庫，抓取數據時可以提升效率。

二、解析庫
1. lxml
lxml是Python的一個解析庫，支持解析HTML和XML，支持XPath的解析方式，而且解析效率非常高。
2. beautifulsoup4
Beautiful Soup可以使用它更方便的從 HTML 文檔中提取數據。

3. pyquery
pyquery是一個網頁解析庫，採用類似jquery的語法來解析HTML文檔。
三、存儲庫
1. mysql
2. mongodb
3. redis
四、爬蟲框架scrapy
Scrapy 是一套非同步處理框架，純python實現的爬蟲框架，用來抓取網頁內容以及各種圖片
需要先安裝scrapy基本依賴庫，比如lxml、pyOpenSSL、Twisted

4. 如何搭建python+selenium自動化測試框架

selenium是一個web的自動化測試工具，不少學習功能自動化的同學開始首選selenium，相因為它相比QTP有諸多有點：

*免費，也不用再為破解QTP而大傷腦筋

*小巧，對於不同的語言它只是一個包而已，而QTP需要下載安裝1個多G的程序。

*這也是最重要的一點，不管你以前更熟悉C、java、ruby、python、或都是C#，你都可以通過selenium完成自動化測試，而QTP只支持VBS

*支持多平台：windows、linux、MAC，支持多瀏覽器：ie、ff、safari、opera、chrome

*支持分布式測試用例的執行，可以把測試用例分布到不同的測試機器的執行，相當於分發機的功能。

關於selenium的基礎知識與java平台的結合，我之前寫過一個《菜鳥學習自動化測試》系列，最近學python，所以想嘗試一下selenium的在python平台如何搭建；還好這方法的文章很容易，在此將搭建步驟整理分享。

搭建平台windows

准備工具如下：

-------------------------------------------------------------

下載python

-------------------------------------------------------------

如果你是新學python，哪果你沒有要用的包是必須依賴於pyhton2.x 的，那麼請毫不猶豫的選擇python3.5吧！

window安裝步驟：

1、下載python安裝。

又報了個錯：

Chromeversionmustbe>=27.0.1453.0 (Driverinfo:chromedriver=2.0,platform=WindowsNT5.1SP3x86)

說我chrome的版本沒有大於27.0.1453.0，這個好辦，更新到最新版本即可。

安裝IEdriver

在新版本的webdriver中，只有安裝了iedriver使用ie進行測試工作。

iedriver的下載地址在這里，記得根據自己機器的操作系統版本來下載相應的driver。

暫時還沒嘗試，應該和chrome的安裝方式類似。

記得配置IE的保護模式

如果要使用webdriver啟動IE的話，那麼就需要配置IE的保護模式了。

把IE里的保護模式都選上或都勾掉就可以了。

5. python使用xpath（超詳細）

使用時先安裝 lxml 包

開始使用 #

和beautifulsoup類似，首先我們需要得到一個文檔樹

把文本轉換成一個文檔樹對象

from lxml import etreeif __name__ == '__main__':doc='''

把文件轉換成一個文檔樹對象

fromlxmlimportetree# 讀取外部文件 index.htmlhtml = etree.parse('./index.html')result = etree.tostring(html, pretty_print=True)#pretty_print=True 會格式化輸出print(result)

均會列印出文碧態檔內容

節點、元素、屬性、內容 #

xpath 的思想是通過路徑表達去尋找節點。節點包括元素，屬性，和內容

元素舉例

html --->...div --->

這里我們可以看到，這里的元素和html中的標簽一個意思。單獨的元素是無法表達一個路徑的，所以單獨的元素不能獨立使用

路徑表達式 #

/ 根節點，節點分隔符，// 任意位置. 當前節點.. 父級節點@ 屬性

通配符 #

* 任意元素@* 任意屬性node() 任意子節點（元素，屬性，內悔老源容)

謂語 #

使用中括弧來限定元素，稱為謂語

//a[n] n為大於零的整數，代表子元素排在第n個位置的元素//a[last()] last() 代表子元素排在最後個位置的元素//a[last()-] 和上面同理，代表倒數第二個//a[position()<3] 位置序號小於3，也就是前兩個，這里我們可以看出xpath中的序列是從1開始//a[@href] 擁有href的元素//a[@href='www..com'] href屬性值為'www..com'的元素//book[@price>2] price值大於2的元素

多個路含蠢徑 #

用| 連接兩個表達式，可以進行或匹配

//book/title | //book/price

函數 #

xpath內置很多函數。更多函數查看 https://www.w3school.com.cn/xpath/xpath_functions.asp

contains(string1,string2)

starts-with(string1,string2)

ends-with(string1,string2) #不支持

upper-case(string) #不支持

text()

last()

position()

node()

可以看到last()也是個函數，在前面我們在謂語中已經提到過了

案例 #

定位元素 #

匹配多個元素，返回列表

fromlxmlimportetreeif__name__ =='__main__':doc='''

【結果為】

[<Element li at 0x2b41b749848>, <Element li at 0x2b41b749808>, <Element li at 0x2b41b749908>, <Element li at 0x2b41b749948>, <Element li at 0x2b41b749988>][] #沒找到p元素

html = etree.HTML(doc)print(etree.tostring(html.xpath("//li[@class='item-inactive']")[0]))print(html.xpath("//li[@class='item-inactive']")[0].text)print(html.xpath("//li[@class='item-inactive']/a")[0].text)print(html.xpath("//li[@class='item-inactive']/a/text()"))print(html.xpath("//li[@class='item-inactive']/.."))print(html.xpath("//li[@class='item-inactive']/../li[@class='item-0']"))

【結果為】

b' third item \n 'None #因為第三個li下面沒有直接text，Nonethird item #['third item'][<Element ul at 0x19cd8c4c848>][<Element li at 0x15ea3c5b848>, <Element li at 0x15ea3c5b6c8>]

使用函數 #

contains #

有的時候，class作為選擇條件的時候不合適@class='....' 這個是完全匹配，當王爺樣式發生變化時，class或許會增加或減少像active的class。用contains就能很方便

from lxml import etreeif __name__ == '__main__':doc='''

【結果為】

[<Element p at 0x23f4a9d12c8>, <Element li at 0x23f4a9d13c8>, <Element li at 0x23f4a9d1408>, <Element li at 0x23f4a9d1448>, <Element li at 0x23f4a9d1488>]

starts-with #

from lxml import etreeif __name__ == '__main__':doc='''

【結果為】

[<Element ul at 0x23384e51148>, <Element p at 0x23384e51248>, <Element li at 0x23384e51288>, <Element li at 0x23384e512c8>, <Element li at 0x23384e51308>, <Element li at 0x23384e51388>][<Element ul at 0x23384e51148>]

ends-with #

print(html.xpath("//*[ends-with(@class,'ul')]"))

【結果為】

Traceback (most recent call last):File"F:/OneDrive/pprojects/shoes-show-spider/test/xp5_test.py",line18,inprint(html.xpath("//*[ends-with(@class,'ul')]"))File"src\lxml\etree.pyx",line1582,inlxml.etree._Element.xpathFile"src\lxml\xpath.pxi",line305,inlxml.etree.XPathElementEvaluator.__call__File"src\lxml\xpath.pxi",line225,inlxml.etree._XPathEvaluatorBase._handle_resultlxml.etree.XPathEvalError: Unregisteredfunction

看來python的lxml並不支持有的xpath函數列表

upper-case #

和ends-with函數一樣，也不支持。同樣報錯lxml.etree.XPathEvalError: Unregistered function

print(html.xpath("//a[contains(upper-case(@class),'ITEM-INACTIVE')]"))

text、last #

#最後一個li被限定了print(html.xpath("//li[last()]/a/text()"))#會得到所有的`<a>`元素的內容，因為每個<a>標簽都是各自父元素的最後一個元素。#本來每個li就只有一個<a>子元素，所以都是最後一個print(html.xpath("//li/a[last()]/text()"))print(html.xpath("//li/a[contains(text(),'third')]"))

【結果為】

['fifth item']['second item', 'third item', 'fourth item', 'fifth item'][<Element a at 0x26ab7bd1308>]

position #

print(html.xpath("//li[position()=2]/a/text()"))#結果為['third item']

上面這個例子我們之前以及講解過了

* 這里有個疑問，就是position()函數能不能像text()那樣用呢

print(html.xpath("//li[last()]/a/position()"))#結果 lxml.etree.XPathEvalError: Unregisteredfunction

這里我們得到一個結論，函數不是隨意放在哪裡都能得到自己想要的結果

node #

返回所有子節點，不管這個子節點是什麼類型（熟悉，元素，內容）

print(html.xpath("//ul/li[@class='item-inactive']/node()"))print(html.xpath("//ul/node()"))

【結果為】

[]['\n ', , '\n ', , '\n ', , '\n ', , '\n ', , ' 閉合標簽\n ']

獲取內容 #

**剛剛已經提到過，可以使用.text和text()的方式來獲取元素的內容

from lxml import etreeif __name__ == '__main__':doc='''

【結果為】

['first item','second item','third item','fourth item','fifth item']first item18['\n ','\n ','\n ','\n ','\n ',' 閉合標簽\n ']

看到這里，我們觀察到text()和.text的區別。自己總結吧。不太好表達，就不表達了

獲取屬性 #

print(html.xpath("//a/@href"))print(html.xpath("//li/@class"))

【結果為】

['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']['item-0active', 'item-1', 'item-inactive', 'item-1', 'item-0']

自定義函數 #

我們從使用函數的過程中得到結論，就是有的函數不支持，有的支持，那問題來了，到底那些方法支持呢。我們在lxml官網找到了答案。 https://lxml.de/xpathxslt.html 。lxml 支持XPath 1.0 ，想使用其他擴展，使用libxml2，和libxslt的標准兼容的方式。 XPath 1.0官方文檔以及其他版本的XPath文檔 https://www.w3.org/TR/xpath/

lxml supports XPath1.0, XSLT1.0andthe EXSLT extensions through libxml2andlibxsltina standards compliant way.

除此之外，lxml還提供了自定義函數的方式來擴展xpath的支持度 https://lxml.de/extensions.html

from lxml import etree#定義函數def ends_with(context,s1,s2):return s1[0].endswith(s2)if __name__ == '__main__':doc='''

【結果為】

[<Element li at 0x2816ed30548>, <Element li at 0x2816ed30508>]['first item', 'third item']

形參s1會傳入xpath中的第一個參數@class，但這里注意@class是個列表

形參s2會傳入xpath中的第二個參數'active'，'active'是個字元串

官網例子 https://lxml.de/extensions.html

defhello(context, a):return"Hello %s"% afromlxmlimportetreens = etree.FunctionNamespace(None)ns['hello'] = helloroot = etree.XML('<a><b>Haegar</b></a>')print(root.xpath("hello('Dr. Falken')"))# 結果為 Hello Dr. Falken

6. Python3.70中etree.xpath使用問題

把from lxml import etree改成from lxml.etree import HTML，下面的etree.HTML改成HTML就行了。或者直接下物隱載一個正雹有etree模舉螞帆塊的lxml版本

7. 如何安裝python中的parsel

python-parsel

Parsel是一個使用XPath和CSS選擇器（可選地與正則表達式結合）從HTML和XML提取數據的庫

一、安裝

官網：https://pypi.org/project/parsel/

pip安裝：pip install parsel 默認安裝的是最新版

pip install parsel=1.6.0 目前官方最新版本

PyCharm：File =》Setting =》Project：sintemple =》 Project：Interpreter =》點擊右上角的加號（或者按快捷鍵Alt+Insert）=》在輸入框中輸入parsel，會出現一個只有parsel的一列，點擊選擇它 =》Install Package 等待安裝完成就可以了（註：其中Specify version選中可以在下拉框中選擇版本）

————————————————

三、csstranslator

TranslatorMixin

This mixin adds support to CSS pseudo elements via dynamic dispatch.Currently supported pseudo-elements are ::text and ::attr(ATTR_NAME).

①. xpath_attr_functional_pseudo_element(xpath, function)

Support selecting attribute values using ::attr() pseudo-element

②. xpath_element(selector)

③. xpath_pseudo_element(xpath, pseudo_element)

Dispatch method that transforms XPath to support pseudo-element

④. xpath_text_simple_pseudo_element(xpath)

Support selecting text nodes using ::text pseudo-element

XPathExpr(path=』』, element=』*』, condition=』』, star_prefix=False)

GenericTranslator

HTMLTranslator(xhtml=False)

四、utils

extract_regex(regex, text, replace_entities=True)

Extract a list of unicode strings from the given text/encoding using the following policies: * if the regex contains a named group called 「extract」 that will be returned * if the regex contains multiple numbered groups, all those will be returned (flattened) * if the regex doesn』t contain any group the entire regex matching is returned

flatten(sequence) → list

Returns a single, flat list which contains all elements retrieved from the sequence and all recursively contained sub-sequences (iterables). Examples: >>> [1, 2, [3,4], (5,6)] [1, 2, [3, 4], (5, 6)] >>> flatten([[[1,2,3], (42,None)], [4,5], [6], 7, (8,9,10)]) [1, 2, 3, 42, None, 4, 5, 6, 7, 8, 9, 10] >>> flatten([「foo」, 「bar」]) [『foo』, 『bar』] >>> flatten([「foo」, [「baz」, 42], 「bar」]) [『foo』, 『baz』, 42, 『bar』]

iflatten(sequence) → Iterator

Similar to .flatten(), but returns iterator instead

shorten(text, width, suffix=』…』)

Truncate the given text to fit in the given width.

————————————————

原文鏈接：網頁鏈接

8. python之jsonpath模塊

9. 怎麼用python做自動化測試

這里以web自動化測試為例，簡單介紹一下如何使用python進行web自動化測試，主要用到selenium這個框架，實驗環境win10+python3.6，主要內容如下：

1.首先，安裝selenium框架，這個直接在cmd窗口輸入命令「pipinstallselenium」就行，如下，安裝非常快：

2.安裝完成後，還需要安裝瀏覽器驅動程序，不然直接運行程序會報錯，以谷歌瀏覽器chrome為例，需要下載chromedriver驅動程序，如下，這里chromedriver的版本必須要與自己平台瀏覽器的版本匹配：

下載完成後，是一個zip壓縮包，裡面就一個chromedriver.exe文件，這里需要將這個文件復制到python安裝目錄下，如下：

3.最後，我們就可以進行selenium框架測試了，測試代碼如下，非常簡單，創建一個webdriver，如果能正常打開對應網頁，則說明selenium安裝成功：

之後就可以直接定位相關元攜余素，進行web自動化測試了，主要方法如下（共有8種），辯洞滾分別是id、name、classname、tagname、linktext、partiallinktext、xpath和cssselector，這里可以自行測試，相關資料非常豐富：

至此，我們就完成了pythonweb自動化測試框架selenium的安裝和簡單使用。總的來說，整個過程非常簡單，只要你有一定的python基礎，熟悉一下上面的安裝過程，很快就能搭建好本地selenium自動化測試框架，網上也顫芹有相關教程和資料，介紹的非常詳細，感興趣的話，可以搜一下，希望以上分享的內容能對你有所幫助吧，也歡迎大家評論、留言進行補充。

10. Python lxml包下面的xpath基本用法

對於網頁數據抓取，有BeautifulSoup、lxml以及正則表達式三種方法，其中正則表達式過於復雜，而beautifulsoup和lxml使用起來較為方便。以前簡單使用過beautifulsoup（美味湯），後面為了擴展一下，熟悉一下lxml進行數據抓取。

先貼一個lxml的簡仿早單框架：

其中，最主要的在於xpath路徑的獲取和解析，而XPath就是地址，具體地，就是需要知道所要尋找的內容處在哪個地址下。一般而言，我們可以根據開發者工具來定位我們需要的元素，然後右擊選擇其所在xpath，選擇初步的路徑，如下圖所示，

這只是一種簡單的方法，更重要的，需要掌握xpath的語法規則，下面分別論述。

使用xpath獲取信息，主要包括獲取本文和獲取屬性，基本用法為

對比可以看出，一個是採用text()獲取文本，一個是採用@屬性獲取屬性值。而前面標簽後面方括弧就是來對標簽進行篩選的。一般而言，通過選擇器可以獲取諸如/html/body/div[@class="useful"]/ul/li/text()的信息，但是開頭的信息沒有標志性，採用//div[@class="useful"]/ul/li/text()即可。

這個地方即涉及到了xpath的語法選擇，主要包括以下幾點：

而在選擇器方備緩雀面，包括以下幾個

除此之外，在獲取了一個元素之後，我們需要獲取其下面元素的屬性，即要對基於xpath獲取的元素再次採用xpath，此時的獲取方式為：

另外，我們也可以獲取節點下面所有的字元串，方法為string(.)，示例為：

懶得打字了，下面的截圖來自W3Cschool， https://www.w3cschool.cn/lxml/_lxml-98h23fk0.html

主要的Xpath運算符包括以下：

按順序選擇等進一步的內容可以移步 https://www.w3cschool.cn/lxml/_lxml-eh1k3fk6.html

具體到不同的網頁上，需要的其他哪陸知識就更多了，慢慢補充吧。不過似乎還是beautifulsoup好用一些，哈哈。

參考資料：
https://blog.csdn.net/weixin_39851008/article/details/109960957
https://www.w3cschool.cn/lxml/_lxml-98h23fk0.html

導航:首頁 > 編程語言 > pythonxpath模塊安裝

pythonxpath模塊安裝

與pythonxpath模塊安裝相關的資料