什麽是網絡爬蟲

網絡爬蟲(又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者)，是壹種按照壹定的規則，自動地抓取萬維網信息的程序或者腳本。另外壹些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

螞蟻(ant)，自動檢索工具(automaticindexer)，或者(在FOAF軟件概念中)網絡疾走(WEB

scutter)，是壹種“自動化瀏覽網絡”的程序，或者說是壹種網絡機器人。它們被廣泛用於互聯網搜索引擎或其他類似網站，以獲取或更新這些網站的內容和檢索方式。

它們可以自動采集所有其能夠訪問到的頁面內容，以供搜索引擎做進壹步處理(分檢整理下載的頁面)，而使得用戶能更快的檢索到他們需要的信息。

網絡爬蟲始於壹張被稱作種子的統壹資源地址(URLs)列表。當網絡爬蟲訪問這些統壹資源定位器時，它們會甄別出頁面上所有的超鏈接，並將它們寫入壹張"待訪列表"，即所謂"爬行疆域"(crawl

frontier)。

此疆域上的統壹資源地址將被按照壹套策略循環訪問。如果爬蟲在他執行的過程中復制歸檔和保存網站上的信息，這些檔案通常儲存，使他們可以被查看。閱讀和瀏覽他們的網站上實時更新的信息，並保存為網站的“快照”。大容量的體積意味著網絡爬蟲只能在給定時間內下載有限數量的網頁，所以要優先考慮其下載。

高變化率意味著網頁可能已經被更新或者刪除。壹些被服務器端軟件生成的URLs(統壹資源定位符)也使得網絡爬蟲很難避免檢索到重復內容。