當前位置:編程學習大全網 - 編程語言 - python xpath怎麽用

python xpath怎麽用

在進行網頁抓取的時候,分析定位html節點是獲取抓取信息的關鍵,目前我用的是lxml模塊(用來分析XML文檔結構的,當然也能分析html結構), 利用其lxml.html的xpath對html進行分析,獲取抓取信息;以下是關於xpath的壹些基本用法:

在介紹XPath的匹配規則之前,我們先來看壹些有關XPath的基本概念。首先要說的是XPath數據類型。XPath可分為四種數據類型:

節點集(node-set)

節點集是通過路徑匹配返回的符合條件的壹組節點的集合。其它類型的數據不能轉換為節點集。

布爾值(boolean)

由函數或布爾表達式返回的條件匹配值,與壹般語言中的布爾值相同,有true和false兩個值。布爾值可以和數值類型、字符串類型相互轉換。

字符串(string)

字符串即包含壹系列字符的集合,XPath中提供了壹系列的字符串函數。字符串可與數值類型、布爾值類型的數據相互轉換。

數值(number)

在XPath中數值為浮點數,可以是雙精度64位浮點數。另外包括壹些數值的特殊描述,如非數值NaN(Not-a-Number)、正無窮大 infinity、負無窮大-infinity、正負0等等。number的整數值可以通過函數取得,另外,數值也可以和布爾類型、字符串類型相互轉換。

其中後三種數據類型與其它編程語言中相應的數據類型差不多,只是第壹種數據類型是XML文檔樹的特有產物。另外,由於XPath包含的是對文檔結構樹的壹系列操作,因此搞清楚XPath節點類型也是很必要的。由於XML文檔的邏輯結構,壹個XML文件可以包含元素、CDATA、註釋、處理指令等邏輯要素,其中元素還可以包含屬性,並可以利用屬性來定義命名空間。相應地,在XPath中,將節點劃分為七種節點類型:

根節點(Root Node)

根節點是壹棵樹的最上層,根節點是唯壹的。樹上其它所有元素節點都是它的子節點或後代節點。對根節點的處理機制與其它節點相同。在XSLT中對樹的匹配總是先從根節點開始。

元素節點(Element Nodes)

元素節點對應於文檔中的每壹個元素,壹個元素節點的子節點可以是元素節點、註釋節點、處理指令節點和文本節點。可以為元素節點定義壹個唯壹的標識id。

元素節點都可以有擴展名,它是由兩部分組成的:壹部分是命名空間URI,另壹部分是本地的命名。

文本節點(Text Nodes)

文本節點包含了壹組字符數據,即CDATA中包含的字符。任何壹個文本節點都不會有緊鄰的兄弟文本節點,而且文本節點沒有擴展名。

屬性節點(Attribute Nodes)

每壹個元素節點有壹個相關聯的屬性節點集合,元素是每個屬性節點的父節點,但屬性節點卻不是其父元素的子節點。這就是說,通過查找元素的子節點可以匹配出元素的屬性節點,但反過來不成立,只是單向的。再有,元素的屬性節點沒有***享性,也就是說不同的元素節點不***有同壹個屬性節點。

對缺省屬性的處理等同於定義了的屬性。如果壹個屬性是在DTD聲明的,但聲明為#IMPLIED,而該屬性沒有在元素中定義,則該元素的屬性節點集中不包含該屬性。

此外,與屬性相對應的屬性節點都沒有命名空間的聲明。命名空間屬性對應著另壹種類型的節點。

命名空間節點(Namespace Nodes)

每壹個元素節點都有壹個相關的命名空間節點集。在XML文檔中,命名空間是通過保留屬性聲明的,因此,在XPath中,該類節點與屬性節點極為相似,它們與父元素之間的關系是單向的,並且不具有***享性。

處理指令節點(Processing Instruction Nodes)

處理指令節點對應於XML文檔中的每壹條處理指令。它也有擴展名,擴展名的本地命名指向處理對象,而命名空間部分為空。

註釋節點(Comment Nodes)

註釋節點對應於文檔中的註釋。下面,我們來構造壹棵XML文檔樹:

<A id=”a1″>

<B id=”b1″>

<C id=”c1″>

<B name=”b”/>

<D id=”d1″/>

<E id=”e1″/>

<E id=”e2″/>

</C>

</B>

<B id=”b2″/>

<C id=”c2″>

<B/>

<D id=”d2″/>

<F/>

</C>

<E/>

</A>

現在,來實現壹些利用Xpath使XML中節點匹配的基本方法。

路徑匹配

路徑匹配與文件路徑的表示相仿,比較好理解。有以下幾個符號:

符 號

含 義

舉 例

匹配結果

/

指示節點路徑

/A/C/D

節點”A”的子節點”C”的子節點”D”,即id值為d2的D節點

/

根節點

//

所有路徑以”//”後指定的子路徑結尾的元素

//E

所有E元素,結果是所有三個E元素

//C/E

所有父節點為C的E元素,結果是id值為e1和e2的兩個E元素

*

路徑的通配符

/A/B/C/*

A元素→B元素→C元素下的所有子元素,即name值為b的B元素、id值為d1的D元素和id值為e1和e2的兩個E元素

/*/*/D

上面有兩級節點的D元素,匹配結果是id值為d2的D元素

//*

所有的元素

|

邏輯或

//B | //C

所有B元素和C元素

位置匹配

對於每壹個元素,它的各個子元素是有序的。如:

舉 例

含 義

匹配結果

/A/B/C[1]

A元素→B元素→C元素的第壹個子元素

name值為b的B元素

/A/B/C[last()]

A元素→B元素→C元素的最後壹個子元素

id值為e2的E元素

/A/B/C[position()>1]

A元素→B元素→C元素之下的位置號大於1的元素

id值為d1的D元素和兩個具有id值的E元素

屬性及屬性值

在XPath中可以利用屬性及屬性值來匹配元素,要註意的是,元素的屬性名前要有”@”前綴。例如:

舉 例

含 義

匹配結果

//B[@id]

所有具有屬性id的B元素

id值為b1和b2的兩個B元素

//B[@*]

所有具有屬性的B元素

兩個具有id屬性的B元素和壹個具有name屬性B元素

//B[not(@*)]

所有不具有屬性的B元素

A元素→C元素下的B元素

//B[@id="b1"]

id值為b1的B元素

A元素下的B元素

親屬關系匹配

XML文檔可歸結為樹型結構,因此任何壹個節點都不是孤立的。通常我們把節點之間的歸屬關系歸結為壹種親屬關系,如父親、孩子、祖先、後代、兄弟等等。在對元素進行匹配時,同樣可以用到這些概念。例如:

舉 例

含 義

匹配結果

//E/parent::*

所有E節點的父節點元素

id值為a1的A元素和id值為c1的C元素

//F/ancestor::*

所有F元素的祖先節點元素

id值為a1的A元素和id值為c2的C元素

/A/child::*

A的子元素

id值為b1、b2的B元素,id值為c2的C元素,以及沒有任何屬性的E元素

/A/descendant::*

A的所有後代元素

除A元素以外的所有其它元素

//F/self::*

所有F的自身元素

F元素本身

//F/ancestor-or-self::*

所有F元素及它的祖先節點元素

F元素、F元素的父節點C元素和A元素

/A/C/descendant-or-self::*

所有A元素→C元素及它們的後代元素

id值為c2的C元素、該元素的子元素B、D、F元素

/A/C/following-sibling::*

A元素→C元素的緊鄰的後序所有兄弟節點元素

沒有任何屬性的E元素

/A/C/preceding-sibling::*

A元素→C元素的緊鄰的前面所有兄弟節點元素

id值為b1和b2的兩個B元素

/A/B/C/following::*

A元素→B元素→C元素的後序的所有元素

id為b2的B元素、無屬性的C元素、無屬性的B元素、id為d2的D元素、無屬性的F元素、無屬性的E元素。

/A/C/preceding::*

A元素→C元素的前面的所有元素

id為b2的B元素、id為e2的E元素、id為e1的E元素、id為d1的D元素、name為b的B元素、id為c1的C元素、id為b1的B元素

條件匹配

條件匹配就是利用壹些函數的運算結果的布爾值來匹配符合條件的節點。常用於條件匹配的函數有四大類:節點函數、字符串函數、數值函數、布爾函數。例如前面提到的last()、position()等等。這些功能函數可以幫助我們精確尋找需要的節點。

函數功能及作用 :

count()功能 : 統計計數,返回符合條件的節點的個數

number()功能 : 將屬性的值中的文本轉換為數值

substring() 功能

語法:substring(value, start, length)

截取字符串

sum()功能 : 求和

這些功能只是XPath語法中的壹部分,還有大量的功能函數沒有介紹,而且目前XPath的語法仍然在不斷發展中。通過這些函數我們可以實現更加復雜的查詢和操作。

以上這些匹配方法中,用得最多的還要數路徑匹配。依靠給出相對於當前路徑的子路徑來定位節點的。

了解xpath了,現在就可以分析html了,代碼舉例:

view source

print?

1

import

lxml.html

2

html

=

'''

數量: 1

''' doc = lxml.html.fromstring(html) numList = doc.xpath('//td[@style="padding-bottom: 5px;" and @nowrap="" and not(@align="right")]/text()')

xpath的語法中'/'和'//'的區別

/是在它的子結點中查找,而//是在它的所有子結點中查找,包括子結點的子結點等等

比如:

<root>

<lev1>

<lev2>lev2_1</lev2>

</lev1>

<lev2>

lev2_2

</lev2>

</root>

那麽如果用lev1/lev2只能得到文本是lev2_2的這個結點,而如果用lev1//lev2,則兩個lev2結點都能得到

  • 上一篇:電磁爐雙竈什麽牌子好
  • 下一篇:若已有定義int m,n;則m為奇數或者n為奇數的表達式為
  • copyright 2024編程學習大全網