主流爬蟲框架通常由以下部分組成:
1.種子URL庫:URL用於定位互聯網中的各類資源,如最常見的網頁鏈接,還有常見的文件資源、流媒體資源等。種子URL庫作為網絡爬蟲的入口,標識出爬蟲應該從何處開始運行,指明了數據來源。
2.數據下載器:針對不同的數據種類,需要不同的下載方式。主流爬蟲框架通暢提供多種數據下載器,用來下載不同的資源,如靜態網頁下載器、動態網頁下載器、FTP下載器等。
3.過濾器:對於已經爬取的URL,智能的爬蟲需要對其進行過濾,以提高爬蟲的整體效率。常用的過濾器有基於集合的過濾器、基於布隆過濾的過濾器等。
4.流程調度器:合理的調度爬取流程,也可以提高爬蟲的整體效率。在流程調度器中,通常提供深度優先爬取、廣度優先爬取、訂制爬取等爬取策略。同時提供單線程、多線程等多種爬取方式。