每個網站都有壹個“爬蟲協議”,至少大型網站都會有。
根據百度百科:
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
越是大型網站,Robots協議越規範,他們為了提高自己在搜索結果的位置,會針對百度、谷歌等搜素引擎寫爬蟲協議,而百度等搜索引擎不需要特別針對這些大網站寫協議
換個角度想,大的搜索引擎就那幾個,而所謂“大網站”數不勝數,怎麽可能寫的過來?
如果妳沒能理解這部分內容,說明妳還處在“菜鳥”級別。壹般的爬蟲算法是:先查找新地址,用隊列或者堆棧來存儲新增加的url;然後用爬蟲程序從隊列或者堆棧中取地址,繼續爬蟲。因為這兩方面程序執行的速度是不壹樣的,不是說找到壹個url就能立即爬完,或者有時候還沒找到新url就已經爬完了,所以分了兩個結構。
壹般的程序中都會用多個函數來執行壹個過程,但這在新手的學習中是不常見到、也是不易搞懂的。
鑒於妳提出的問題,我覺得妳不到能搞通爬蟲程序的階段,建議妳還是從簡單的程序開始。看看這個編程語言入門經典100例Python版,希望對妳有幫助
地址:
blogs.com/CheeseZH/archive/2012/11/05/2755107.html