壹、構建合理的HTTP請求頭
HTTP的請求頭是在妳每次向網絡服務器發送請求時,傳遞的壹組屬性和配置信息。由於瀏覽器和Python爬蟲發送的請求頭不同,有可能被反爬蟲檢測出來。
二、設置cookie的學問
Cookie是壹把雙刃劍,有它不行,沒它更不行。網站會通過cookie跟蹤妳的訪問過程,如果發現妳有爬蟲行為會立刻中斷妳的訪問,比如妳特別快的填寫表單,或者短時間內瀏覽大量頁面。而正確地處理cookie,又可以避免很多采集問題,建議在采集網站過程中,檢查壹下這些網站生成的cookie,然後想想哪壹個是爬蟲需要處理的。
三、正常的時間訪問路徑
合理控制采集速度,是Python爬蟲不應該破壞的規則,盡量為每個頁面訪問時間增加壹點兒間隔,可以有效幫助妳避免反爬蟲。
四、使用http
對於分布式爬蟲和已經遭遇反爬蟲的人來說,使用http將成為妳的首選。Ipidea分布地區廣,可滿足分布式爬蟲使用需要。支持api提取,對Python爬蟲來說再適合不過。