為什麽已經拒絕蜘蛛收錄，而搜索引擎還能抓取網站內容

這是今天壹位尊敬的無憂主機用戶的提問，對於這個問題，確實比較難回答，無憂主機（ 51php.com）售後工程師們相互討論下下，根據我們自己的維護經驗淺淺的說下搜索引擎收錄的問題。要先說明白這個問題，首先我們先了解下搜索引擎爬蟲（蜘蛛）的工作原理：搜索引擎是使用spider（蜘蛛）程序抓起用戶網頁的內容，在搜索引擎蜘蛛訪問網站時會先查看網站是否有robots.txt文件，如果有蜘蛛程序會先去訪問robots.txt文件讀取文件的內容，這個文件中說明網站那些內容是希望被抓取的或拒絕抓取的。蜘蛛程序查看robots.txt協議後會知道它應該做那些工作，是執行拒絕還是抓取動作。現在我們回到文章標題的話題來，小編發現搜索引擎有時也會在搜索結果中顯示已經拒絕收錄的php虛擬主機頁面或者顯示網頁快照，這是什麽呢？原因有很多我就舉幾個最常見的原因：1、用戶設置 robots.txt文件時可能出錯或者並不是放在網站的根目錄下，這樣搜索引擎就不會收到您拒絕收錄的正確信息；2、搜索引擎收錄的網頁並不是通過直接訪問網站所得，可能是通過外鏈對網站拒絕頁面進行收錄；3、可能在robots.txt文件建立之前，網站已經被搜索引擎收錄了，搜索引擎沒有及時更新導致spider程序不準守robots協議，這個原因只有等搜索引擎下次更新收錄才有辦法解決在上述情況發生時我們要防止所有搜索引擎顯示您網站的快照，可以將這段代碼加入到網頁的頭部代碼部分：本貼由日本留學發布，我們提供日本留學服務。轉發請註明地址