當前位置:編程學習大全網 - 源碼下載 - 如何檢索和分析網站日誌文件

如何檢索和分析網站日誌文件

您好,很高興為您解答。

作為SEOer,我們使用的各種各樣的工具,以收集各式各樣的技術問題,網站分析,抓取診斷,百度站長工具等。所有這些工具是有用的,但都無法比擬在網站日誌數據分析搜索引擎蜘蛛抓取,就像Googlebot到爬取您的網站並您的網站上留下了壹個真實的記錄。這是網絡服務器日誌。日誌是壹個強大的源數據經常沒有得到充分利用,但有助於保持您的網站的搜索引擎抓取檢查的完整性。

服務器日誌是由壹個特定的服務器進行詳細記錄了每壹個動作。在壹個Web服務器的情況下,妳可以得到很多有用的信息。如何檢索和分析日誌文件,並根據您的服務器的響應代碼(404,302,500等)的識別問題。我將它分解成2個部分,每個部分突出不同的問題,可以發現在您的Web服務器日誌

壹、獲取日誌文件

搜索引擎抓取網站信息必會在服務器上留下信息,這個信息就在網站日誌文件裏。我們通過日誌可以了解搜索引擎的訪問情況,壹般通過主機服務商開通日誌功能,再通過FTP訪問網站的根目錄,在根目錄下可以看到壹個log或者weblog文件夾,這裏面就是日誌文件,我們把這個日誌文件下載下來,用記事本(或瀏覽器)打開就可以看到網站日誌的內容。那麽到底這個日誌裏面隱藏了什麽玄機呢?其實日誌文件就像飛機上的黑匣子。我們可以通過這個日誌了解很多信息,那麽到底這個日誌給我們傳遞了什麽內容呢?下面先做壹個簡單的說明。

日期:這將讓妳壹天搜索引擎抓取速度的發展趨勢進行分析。

被爬取文件:這將告訴妳哪些被抓取的目錄和文件,並在某些路段或類型的內容可以幫助查明問題。

狀態碼:(只列出常見到並能直接反正網站問題的狀態碼)

200狀態碼:請求已成功,請求所希望的響應頭或數據體將隨此響應返回。

302狀態碼:請求的資源現在臨時從不同的URI響應請求。

404狀態碼:請求失敗,請求所希望得到的資源未被在服務器上發現。

500狀態碼:服務器遇到了壹個未曾預料的狀況,導致了它無法完成對請求的處理。

- - 提供了哪些網頁被爬蟲運行到並反應出什麽樣的問題。

從哪裏來:雖然這不壹定是有用的分析搜索機器人,它是非常有價值的,其他的流量分析。

哪種爬蟲:這個會告訴妳哪個搜索引擎爬蟲在妳的網頁上運行的。

二、解析網站日誌文件

現在妳需要壹個日誌分析工具,因為如果妳的網站有幾M或幾十M甚至百M以上的日誌數據時,妳不可能壹條條去看。再說,就算日誌數據不多,壹條條看也是不科學的。這裏用光年seo日誌分析工具為大家做個例子。

1.導入文件到您解析軟件。

2.分析網站日誌及時發現出現的問題

搜索引擎抓取您的網站有最快的方式是看在正在服務的服務器響應代碼。404(找不到頁面)可能意味著抓取那珍貴的資源被浪費了;302重定向請求的資源現在臨時從不同的URI響應請求;500是服務器遇到了壹個未曾預料的狀況,導致了它無法完成對請求的處理,可以分析出服務器出現的問題。雖然網站管理工具提供了壹些信息,這樣的錯誤,會給妳的網站造成壹個非常大的影響。

分析的第壹步是從您的日誌數據,通過光年seo日誌分析工具以產生壹個數據表。在最基本的層面上,讓我們看看哪些搜索引擎的爬蟲在爬行這個網站:

通過報表我們想幾個問題:

a.雅虎蜘蛛總抓取量占了全部的47.12%;那麽我從流量統計器看到。沒有壹個流量是從雅虎搜索引擎過來的。那麽這個蜘蛛可不可以禁止他再來訪問呢?

b.百度蜘蛛(BaiDu Spider )的訪問次數、停留的時間、總抓取量反應了什麽呢?

c.其它搜索引擎的蜘蛛的訪問次數、停留的時間、總抓取量那麽少的原因是什麽呢?有沒有改善的方法呢?

接下來,讓我們來看看在蜘蛛狀態碼分析,我們最關心的問題。

這是只顯示這個日誌有問題的蜘蛛狀態碼,而已正常200將不被分析。我們將要細看這個表格。總體而言,好到壞的比例看起來很健康,但有壹些個別的問題讓我們嘗試弄清楚這是怎麽回事。

302出現的問題數量是可以接受的,但是不代表可以放著不去處理,我們應該有更好的方法來處理這些問題,也許用壹個robots.txt指令應排除這些頁面被抓取。

404的出現達到109個。在幾萬的抓取量來說。網站的這個數據也算是可以的。但是也需要解決,找出潛在的問題是隔離404目錄或者使用rel =”nofollow”註釋這些404鏈接。當然404的頁面也必須要有。

如若滿意,請點擊右側采納答案,如若還有問題,請點擊追問

希望我的回答對您有所幫助,望采納!

~ O(∩_∩)O~

  • 上一篇:跳頻源代碼
  • 下一篇:大型資源論壇
  • copyright 2024編程學習大全網