如何用Python抓取動態頁面信息

很早之前，學習Python web編程的時候，就涉及壹個Python的urllib。可以用urllib.urlopen("url").read()可以輕松讀取頁面上面的靜態信息。但是，隨著時代的發展，也來越多的網頁中更多的使用javascript、jQuery、PHP等語言動態生成頁面信息。因此，用urllib再去抓取頁面HTML就不足以達到我們想要的效果。

解決思路：

有壹個思路最為簡單的思路可以動態解析頁面信息。urllib不可以解析動態信息，但是瀏覽器可以。在瀏覽器上展現處理的信息其實是處理好的HTML文檔。這為我們抓取動態頁面信息提供了很好的思路。在Python中有壹個很有名的圖形庫——PyQt。PyQt雖然是圖形庫，但是他裏面 QtWebkit。這個很實用。谷歌的Chrome和蘋果的Safari都是基於WebKit內核開發的，所以我們可以通過PyQt中得QtWebKit 把頁面中的信息讀取加載到HTML文檔中，再解析HTML文檔，從HTML文檔中提取我們想用得信息。

作者本人實用Mac OS X。應該在Windows和Linux平臺也可以采用相同的辦法。

1、Qt4 library

Library，而不是Creator。Library在Mac的默認安裝路徑下，應該是/home/username/Developor/，不要改變Qt4的默認安裝路徑。否則可能安裝失敗。

官方網址：/snakewu1994/StyleBasis_Four/en_album_607236.shtml")

Parser = MyParser()

Parser.feed(browser.html)

print "Done"

browser.close()

通過這個程序，可以下載妳在頁面上看到的全部圖片。簡單的幾行程序就完成了這個艱巨的任務。實現了圖片的批量處理。這真是Python語言的優勢，再艱巨的任務交給第三方吧。

上一篇:變成造句

下一篇:Telnet 命令到底是幹什麽用的？怎麽用？

原神玩家為什麽叫op和原批？OP，原批是什麽意思？