當前位置:編程學習大全網 - 編程軟體 - 有人了解百度或者谷歌的爬蟲嗎

有人了解百度或者谷歌的爬蟲嗎

每個網站都有壹個“爬蟲協議”,至少大型網站都會有。

根據百度百科:

Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

越是大型網站,Robots協議越規範,他們為了提高自己在搜索結果的位置,會針對百度、谷歌等搜素引擎寫爬蟲協議,而百度等搜索引擎不需要特別針對這些大網站寫協議

換個角度想,大的搜索引擎就那幾個,而所謂“大網站”數不勝數,怎麽可能寫的過來?

如果妳沒能理解這部分內容,說明妳還處在“菜鳥”級別。壹般的爬蟲算法是:先查找新地址,用隊列或者堆棧來存儲新增加的url;然後用爬蟲程序從隊列或者堆棧中取地址,繼續爬蟲。因為這兩方面程序執行的速度是不壹樣的,不是說找到壹個url就能立即爬完,或者有時候還沒找到新url就已經爬完了,所以分了兩個結構。

壹般的程序中都會用多個函數來執行壹個過程,但這在新手的學習中是不常見到、也是不易搞懂的。

鑒於妳提出的問題,我覺得妳不到能搞通爬蟲程序的階段,建議妳還是從簡單的程序開始。看看這個編程語言入門經典100例Python版,希望對妳有幫助

地址:

blogs.com/CheeseZH/archive/2012/11/05/2755107.html

  • 上一篇:拜占庭程序設計
  • 下一篇:安卓電視盒子(有USB口、HDMI口)可以外接顯示器查看word或pdf文檔嗎?
  • copyright 2024編程學習大全網