什麽是爬蟲和爬蟲的基本流程

隨著互聯網的飛速發展，越來越多的數據充斥著這個時代。而獲取和處理數據就成為我們生活中必不可少的部分，爬蟲也是應運而生。

眾多語言都能進行爬蟲，但基於python的爬蟲顯得更加簡潔，方便。爬蟲也成了python語言中必不可少的壹部分。

本篇講解的是什麽是爬蟲和爬蟲的基本流程的介紹，下壹期將進壹步深入了解爬蟲的基本流程，Request和Response。

什麽是爬蟲？

爬蟲即網絡爬蟲，英文是Web Spider。翻譯過來就是網絡上爬行的蜘蛛，如果把互聯網看作壹張大網，那麽爬蟲就是在大網上爬來爬去的蜘蛛，碰到想要的食物，就把他抓取出來。

我們在瀏覽器中輸入壹個網址，敲擊回車，看到網站的頁面信息。這就是瀏覽器請求了網站的服務器，獲取到網絡資源。那麽，爬蟲也相當於模擬瀏覽器發送請求，獲得到HTML代碼。HTML代碼裏通常包含了標簽和文字信息，我們就從中提取到我們想要的信息。

通常爬蟲是從某個網站的某個頁面開始，爬取這個頁面的內容，找到網頁中的其他鏈接地址，然後從這個地址爬到下壹個頁面，這樣壹直不停的爬下去，進去批量的抓取信息。那麽，我們可以看出網絡爬蟲就是壹個不停爬取網頁抓取信息的程序。

爬蟲的基本流程：

1.發起請求：

通過HTTP庫向目標站點發起請求，即發送壹個Request，請求可以包含額外的headers等信息，然後等待服務器響應。這個請求的過程就像我們打開瀏覽器，在瀏覽器地址欄輸入網址：www.baidu.com，然後點擊回車。這個過程其實就相當於瀏覽器作為壹個瀏覽的客戶端，向服務器端發送了壹次請求。

2.獲取響應內容：

如果服務器能正常響應，我們會得到壹個Response，Response的內容便是所要獲取的內容，類型可能有HTML、Json字符串，二進制數據(圖片，視頻等）等類型。這個過程就是服務器接收客戶端的請求，進過解析發送給瀏覽器的網頁HTML文件。

3.解析內容：

得到的內容可能是HTML，可以使用正則表達式，網頁解析庫進行解析。也可能是Json，可以直接轉為Json對象解析。可能是二進制數據，可以做保存或者進壹步處理。這壹步相當於瀏覽器把服務器端的文件獲取到本地，再進行解釋並且展現出來。

4.保存數據：

保存的方式可以是把數據存為文本，也可以把數據保存到數據庫，或者保存為特定的jpg，mp4 等格式的文件。這就相當於我們在瀏覽網頁時，下載了網頁上的圖片或者視頻。