pythonxpath庫_如何在python中使用xpath

1. 如何在python中使用xpath

在進行網頁抓取的時候，分析定位html節點是獲取抓取信息的關鍵，目前我用的是lxml模塊(用來分析XML文檔結構的，當然也能分析html結構)，利用其lxml.html的xpath對html進行分析，獲取抓取信息。
首先，我們需要安裝一個支持xpath的python庫。目前在libxml2的網站上被推薦的python binding是lxml，也有beautifulsoup，不嫌麻煩的話還可以自己用正則表達式去構建，本文以lxml為例講解。
假設有如下的HTML文檔:

1 <html>
2 <body>
3 <form>
4 <div id='leftmenu'>
5 <h3>text</h3>
6 <ul id=』china』>
7 <li>...</li>
8 <li>...</li>
9 ......
10 </ul>
11 <ul id=』england』>
12 <li>...</li>
13 <li>...</li>
14 ......
15 </ul>
16 </div>
17 </form>
18 </body>
19 </html>

直接使用lxml處理：
1 import codecs
2 from lxml import etree
3 f=codecs.open("ceshi.html","r","utf-8")
4 content=f.read()
5 f.close()
6 tree=etree.HTML(content)

etree提供了HTML這個解析函數，現在我們可以直接對HTML使用xpath了，是不是有點小激動，現在就嘗試下吧。

在使用xpath之前我們先來看看作為對照的jQuery和RE。
在jQuery里要處理這種東西就很簡單，特別是假如那個ul節點有id的話（比如是<ul id=』china』>）：
$("#china").each(function(){...});

具體到此處是：
$("#leftmenu").children("h3:contains('text')").next("ul").each(function(){...});

找到id為leftmenu的節點，在其下找到一個內容包含為」text」的h3節點，再取其接下來的一個ul節點。
在python里要是用RE來處理就略麻煩一些：
block_pattern=re.compile(u"<h3>檔案</h3>(.*?)<h3>", re.I | re.S)
m=block_pattern.findall(content)
item_pattern=re.compile(u"<li>(.*?)</li>", re.I | re.S)
items=item_pattern.findall(m[0])
for i in items:
print i

那麼用xpath要怎麼做呢？其實跟jQuery是差不多的：
nodes=tree.xpath("/descendant::ul[@id='china']")

當然，現在沒有id的話也就只能用類似於jQuery的方法了。完整的xpath應該是這樣寫的（注意，原文件中的TAG有大小寫的情況，但是在XPATH里只能用小寫）：
nodes=tree.xpath(u"/html/body/form/div[@id='leftmenu']/h3[text()='text']/following-sibling::ul[1]")

更簡單的方法就是像jQuery那樣直接根據id定位：
nodes=tree.xpath(u"//div[@id='leftmenu']/h3[text()='text']/following-sibling::ul[1]")

這兩種方法返回的結果中，nodes[0]就是那個「text」的h3節點後面緊跟的第一個ul節點,這樣就可以列出後面所有的ul節點內容了。
如果ul節點下面還有其他的節點，我們要找到更深節點的內容，如下的循環就是把這些節點的文本內容列出：
nodes=nodes[0].xpath("li/a")
for n in nodes:
print n.text

對比三種方法應該可以看出xpath和jQuery對於頁面的解析都是基於XML的語義進行，而RE則純粹是基於plain text。RE對付簡單的頁面是沒有問題，如果頁面結構復雜度較高的時候（比如一堆的DIV來回嵌套之類），設計一個恰當的RE pattern可能會遠比寫一個xpath要復雜。特別是目前主流的基於CSS的頁面設計方式，其中大部分關鍵節點都會有id――對於使用jQuery的頁面來說則更是如此，這時xpath相比RE就有了決定性的優勢。

附錄：基本XPATH語法介紹，詳細請參考XPath的官方文檔
XPATH基本上是用一種類似目錄樹的方法來描述在XML文檔中的路徑。比如用「/」來作為上下層級間的分隔。第一個「/」表示文檔的根節點（注意，不是指文檔最外層的tag節點，而是指文檔本身）。比如對於一個HTML文件來說，最外層的節點應該是」/html」。
同樣的，「..」和「.」分別被用來表示父節點和本節點。
XPATH返回的不一定就是唯一的節點，而是符合條件的所有節點。比如在HTML文檔里使用「/html/head/scrpt」就會把head里的所有script節點都取出來。
為了縮小定位范圍，往往還需要增加過濾條件。過濾的方法就是用「[」「]」把過濾條件加上。比如在HTML文檔里使用「/html/body/div[@id='main']」，即可取出body里id為main的div節點。
其中@id表示屬性id，類似的還可以使用如@name, @value, @href, @src, @class….
而函數text()的意思則是取得節點包含的文本。比如：<div>hello<p>world</p>< /div>中，用」div[text()='hello']「即可取得這個div，而world則是p的text()。
函數position()的意思是取得節點的位置。比如「li[position()=2]」表示取得第二個li節點，它也可以被省略為「li[2]」。
不過要注意的是數字定位和過濾條件的順序。比如「ul/li[5][@name='hello']」表示取ul下第五項li，並且其name必須是hello，否則返回空。而如果用「ul/li[@name='hello'][5]」的意思就不同，它表示尋找ul下第五個name為」hello「的li節點。
此外，「*」可以代替所有的節點名，比如用」/html/body/*/span」可以取出body下第二級的所有span，而不管它上一級是div還是p或是其它什麼東東。
而「descendant::」前綴可以指代任意多層的中間節點，它也可以被省略成一個「/」。比如在整個HTML文檔中查找id為「leftmenu」的 div，可以用「/descendant::div[@id='leftmenu']」，也可以簡單地使用「 //div[@id='leftmenu']」。
至於「following-sibling::」前綴就如其名所說，表示同一層的下一個節點。」following-sibling::*」就是任意下一個節點，而「following-sibling::ul」就是下一個ul節點。

熱點內容

提高pdf清晰度發布：2025-01-24 22:05:03 瀏覽：979

伺服器網卡mac地址怎麼查發布：2025-01-24 21:59:02 瀏覽：114

裁決之地伺服器為什麼這么卡發布：2025-01-24 21:58:59 瀏覽：597

民生app怎麼查保險發布：2025-01-24 21:58:09 瀏覽：467

單片機藍牙驅動代碼發布：2025-01-24 21:53:45 瀏覽：467

php實現多選後公開發布：2025-01-24 21:52:19 瀏覽：645

map中的值為數組的怎麼編程發布：2025-01-24 21:46:22 瀏覽：261

加密貨幣怎麼登錄發布：2025-01-24 21:33:50 瀏覽：1002

如何看本機伺服器實例名發布：2025-01-24 21:29:25 瀏覽：388

變頻器加密密碼發布：2025-01-24 21:10:33 瀏覽：796

美國銀行加密市場發布：2025-01-24 21:05:53 瀏覽：384

我的世界伺服器如何tp玩家發布：2025-01-24 20:55:59 瀏覽：26

app下載統計怎麼找發布：2025-01-24 20:55:51 瀏覽：264

荔枝app怎麼看適合自己的發型發布：2025-01-24 20:55:04 瀏覽：371

魔獸世界client文件夾發布：2025-01-24 20:33:32 瀏覽：541

解壓音樂輕松入睡發布：2025-01-24 20:25:05 瀏覽：272

c盤文件夾卡頓怎麼辦發布：2025-01-24 20:20:13 瀏覽：450

增量調制編解碼實驗數據發布：2025-01-24 20:14:03 瀏覽：763

電流采樣信號進單片機發布：2025-01-24 19:57:54 瀏覽：191

編程教育課程收費發布：2025-01-24 19:50:18 瀏覽：417

導航:首頁 > 編程語言 > pythonxpath庫

pythonxpath庫

與pythonxpath庫相關的資料