怎麽用python抓取網頁並實現壹些提交操作？

下面這個程序是抓取網頁的壹個例子，MyOpener類是為了模擬瀏覽器客戶端，並采用隨機選取的方式以防網站將妳認為是機器人。

MyFunc函數抓取妳指定的url，並提取了其中的href鏈接，圖片的獲取類似，壹般是<img src=xxx>這樣的形式，其他的功能應該也不難，去網上搜下應該有些例子。

import re

from urllib import FancyURLopener

from random import choice

user_agents = [

'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',

'Opera/9.25 (Windows NT 5.1; U; en)',

'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',

'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',

'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',

'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9'

]

class MyOpener(FancyURLopener, object):

version = choice(user_agents)

def MyFunc(url):

myopener = MyOpener()

s = myopener.open(url).read()

ss=s.replace("\n"," ")

urls=re.findall(r"<a.*?href=.*?<\/a>",ss,re.I)#尋找href鏈接

for i in urls:

do sth.

上一篇:js全部替換帶有$的字符串

下一篇:DNF在官網強制交易

相关文章

VC串口編程問題，利用的是CSerialPort類。請各位幫幫忙！給了好的意見的還有加分~~

python中的sklearn中決策樹使用的是哪壹種算法

投影儀如何無線連接ipad？

夏普電視智能的用的是什麽系統

CXF解析svc?wsdl文件成java格式

web前端看哪些書籍好，前端開發書籍大全

如何破解安裝軟件的源代碼

copyright 2024編程學習大全網