Python爬蟲就是壹個探測機器,它的基本操作就是模擬人的行為去各個網站溜達,把看到的信息背回來。就像壹只蟲子在壹幢樓裏不知疲倦地爬來爬去。
HTTP代理的分類
根據代理ip的匿名程度,代理IP可以分為下面四類:
透明代理:能夠直接“隱藏”妳的ip地址,但是還是可以查到妳是誰。
匿名代理:匿名代理比透明代理進步了壹點,別人只能知道妳用了代理,無法知道妳是誰。
混淆代理:與匿名代理相同,假設使用混淆代理,別人還是能知道妳在用代理,但是會得到壹個假的IP地址,偽裝的更逼真
高匿代理:可以看出來,高匿代理讓別人根本無法發現妳是在用代理,所以是最好的選擇。
在使用的使用,毫無疑問使用高匿代理效果最好
而且,進行大批量的爬蟲時,僅僅使用壹兩個代理是完全不夠用的,ip壹定被封就無法繼續抓取數據了,所以需要大量的高匿IP。
HTTP和HTTPS的不同
http是非常常見的應用層協議,是超文本傳輸協議的簡稱,其傳輸的內容都是明文的。
http是HTTP協議運行在TCP之上。所有傳輸的內容都是明文,客戶端和服務器端都無法驗證對方的身份。