當前位置:編程學習大全網 - 編程軟體 - 如何用Python抓取動態頁面信息

如何用Python抓取動態頁面信息

很早之前,學習Python web編程的時候,就涉及壹個Python的urllib。可以用urllib.urlopen("url").read()可以輕松讀取頁面上面的靜態信息。但是,隨著時代的發展,也來越多的網頁中更多的使用javascript、jQuery、PHP等語言動態生成頁面信息。因此,用urllib再去抓取頁面HTML就不足以達到我們想要的效果。

解決思路:

有壹個思路最為簡單的思路可以動態解析頁面信息。urllib不可以解析動態信息,但是瀏覽器可以。在瀏覽器上展現處理的信息其實是處理好的HTML文檔。這為我們抓取動態頁面信息提供了很好的思路。在Python中有壹個很有名的圖形庫——PyQt。PyQt雖然是圖形庫,但是他裏面 QtWebkit。這個很實用。谷歌的Chrome和蘋果的Safari都是基於WebKit內核開發的,所以我們可以通過PyQt中得QtWebKit 把頁面中的信息讀取加載到HTML文檔中,再解析HTML文檔,從HTML文檔中提取我們想用得信息。

作者本人實用Mac OS X。應該在Windows和Linux平臺也可以采用相同的辦法。

1、Qt4 library

Library,而不是Creator。Library在Mac的默認安裝路徑下,應該是/home/username/Developor/,不要改變Qt4的默認安裝路徑。否則可能安裝失敗。

官方網址:/snakewu1994/StyleBasis_Four/en_album_607236.shtml")

Parser = MyParser()

Parser.feed(browser.html)

print "Done"

browser.close()

通過這個程序,可以下載妳在頁面上看到的全部圖片。簡單的幾行程序就完成了這個艱巨的任務。實現了圖片的批量處理。這真是Python語言的優勢,再艱巨的任務交給第三方吧。

  • 上一篇:變成造句
  • 下一篇:Telnet 命令到底是幹什麽用的?怎麽用?
  • copyright 2024編程學習大全網