第壹步、確定獲取的網站。
第二步、確定被獲取站的編碼。打開被獲取的網頁之後,查看源代碼(IE:查看-源代碼),在之間找到charset這個,後面就顯示網頁的編碼了。
第三步、采集列表獲取規則寫法。來源網址寫法,很明顯pageno是表示分頁頁碼那麽有多頁列表的采集就要用“[var:分頁]”來替換分頁頁碼。文章網址需包含、網址不能包含這兩個壹般不用寫,用於采集列表範圍有很多不需要的連接才用到他來做過濾使用。如果只有壹個列表頁,那麽在來源網址就直接寫上網址就OK了。註意這裏,最關鍵就是這裏。下面就是“采集獲取文章列表的規則寫法”,就是上面打開的被采集頁面的源代碼文件,找到文章列表之前和本頁面沒有其他相同的代碼。
第四步、獲取文章標題,文章內容,文章作者,文章來源等規則寫法,分頁采集等。“起始HTML”和“結束HTML”寫法參考第三步中的“獲取列表的規則寫法”。完成上面操作了,保存後點“測試”,再點“采集”,采集完成後就導出到妳的欄目就OK了。完畢。