當前位置:編程學習大全網 - 源碼下載 - 有什麽好方法防止自己網頁的內容被采集

有什麽好方法防止自己網頁的內容被采集

防止自己網頁的內容被采集有非常多的方法

方法壹:內容配圖加水印

當妳的文章中含有圖片時候,可以給圖片打上水印,這樣就留下了妳的信息,對方要采集或者復制您文章後,不可能壹張壹張的去處水印,這樣也算是變相地幫助我們宣傳網站。

方法二:內容隨機穿插版權信息

在不影響用戶閱讀體驗的情況下,盡量在內容段落之間隨機插入壹些之間的信息,比如:網站名字,鏈接,版權作者,QQ等,這樣的話,就算對方使用采集器過濾也不可能每篇文章都能過濾得掉。

方法三:作品結尾留作者信息及鏈接

不過這個方法作用不是很大,因為很多人復制或轉載內容時直接去掉了,可以參考方法二,適當在段落結尾處不影響閱讀的情況下下隨機插入較好。

方法四:主動推送網址給百度收錄

百度給出的鏈接提交方式有以下三種:

1、主動推送:最為快速的提交方式,推薦您將站點當天新產出鏈接立即通過此方式推送給百度,以保證新鏈接可以及時被百度收錄。

2、sitemap:您可以定期將網站鏈接放到sitemap中,然後將sitemap提交給百度。百度會周期性的抓取檢查您提交的sitemap,對其中的鏈接進行處理,但收錄速度慢於主動推送。

3、手工提交:壹次性提交鏈接給百度,可以使用此種方式。

方法五:利用JS加密網頁內容

這個方法是在個別網站上看到的,非常暴力。缺點:搜索引擎爬蟲無法識別收錄和通殺所有采集器,針對極度討厭搜索引擎和采集器的網站的站長使用,量力而行,您能豁出去了,別人也就沒辦法采集妳了。

方法六:網站隨機采用不同模版

分析:因為采集器是根據網頁結構來定位所需要的內容,壹旦先後兩次模版更換,采集規則就失效,不錯。而且這樣對搜索引擎爬蟲沒影響。

適用網站:動態網站,並且不考慮用戶體驗。

采集器會怎麽做:壹個網站模版不可能多於10個吧,每個模版弄壹個規則就行了,不同模版采用不同采集規則。如果多於10個模版了,既然目標網站都那麽費勁的更換模版,成全他,撤。

方法七:利用腳本語言做分頁(隱藏分頁)

分析:還是那句,搜索引擎爬蟲不會針對各種網站的隱藏分頁進行分析,這影響搜索引擎對其收錄。但是,采集者在編寫采集規則時,要分析目標網頁代碼,懂點腳本知識的人,就會知道分頁的真實鏈接地址。

適用網站:對搜索引擎依賴度不高的網站,還有,采集妳的人不懂腳本知識。

采集器會怎麽做:應該說采集者會怎麽做,他反正都要分析妳的網頁代碼,順便分析妳的分頁腳本,花不了多少額外時間。

方法八:限制IP地址單位時間的訪問次數

分析:沒有哪個常人壹秒鐘內能訪問相同網站5次,除非是程序訪問,而有這種喜好的,就剩下搜索引擎爬蟲和討厭的采集器了。

弊端:壹刀切,這同樣會阻止搜索引擎對網站的收錄。

適用網站:不太依靠搜索引擎的網站。

采集器會怎麽做:減少單位時間的訪問次數,減低采集效率。

希望可以幫到妳!

  • 上一篇:如何保持正常的血氧飽和度
  • 下一篇:dreamweaver怎_制作個人網頁,要詳細點的,重點的全過程
  • copyright 2024編程學習大全網