1. requests
requests 類庫是第三方庫,比 Python 自帶的 urllib 類庫使用方便和
2. selenium
利用它執行瀏覽器動作,模擬操作。
3. chromedriver
安裝chromedriver來驅動chrome。
4. aiohttp
aiohttp是異步請求庫,抓取數據時可以提升效率。
二、 解析庫
1. lxml
lxml是Python的壹個解析庫,支持解析HTML和XML,支持XPath的解析方式,而且解析效率非常高。
2. beautifulsoup4
Beautiful Soup可以使用它更方便的從 HTML 文檔中提取數據。
3. pyquery
pyquery是壹個網頁解析庫,采用類似jquery的語法來解析HTML文檔。
三、 存儲庫
1. mysql
2. mongodb
3. redis
四、 爬蟲框架scrapy
Scrapy 是壹套異步處理框架,純python實現的爬蟲框架,用來抓取網頁內容以及各種圖片
需要先安裝scrapy基本依賴庫,比如lxml、pyOpenSSL、Twisted