有人了解百度或者谷歌的爬蟲嗎

每個網站都有壹個“爬蟲協議”，至少大型網站都會有。

根據百度百科：

Robots協議（也稱為爬蟲協議、機器人協議等）的全稱是“網絡爬蟲排除標準”（Robots Exclusion Protocol），網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。

越是大型網站，Robots協議越規範，他們為了提高自己在搜索結果的位置，會針對百度、谷歌等搜素引擎寫爬蟲協議，而百度等搜索引擎不需要特別針對這些大網站寫協議

換個角度想，大的搜索引擎就那幾個，而所謂“大網站”數不勝數，怎麽可能寫的過來？

如果妳沒能理解這部分內容，說明妳還處在“菜鳥”級別。壹般的爬蟲算法是：先查找新地址，用隊列或者堆棧來存儲新增加的url；然後用爬蟲程序從隊列或者堆棧中取地址，繼續爬蟲。因為這兩方面程序執行的速度是不壹樣的，不是說找到壹個url就能立即爬完，或者有時候還沒找到新url就已經爬完了，所以分了兩個結構。

壹般的程序中都會用多個函數來執行壹個過程，但這在新手的學習中是不常見到、也是不易搞懂的。

鑒於妳提出的問題，我覺得妳不到能搞通爬蟲程序的階段，建議妳還是從簡單的程序開始。看看這個編程語言入門經典100例Python版，希望對妳有幫助

地址：

blogs.com/CheeseZH/archive/2012/11/05/2755107.html