當前位置:編程學習大全網 - 網站源碼 - python爬蟲需要安裝哪些庫

python爬蟲需要安裝哪些庫

壹、 請求庫

1. requests

requests 類庫是第三方庫,比 Python 自帶的 urllib 類庫使用方便和

2. selenium

利用它執行瀏覽器動作,模擬操作。

3. chromedriver

安裝chromedriver來驅動chrome。

4. aiohttp

aiohttp是異步請求庫,抓取數據時可以提升效率。

二、 解析庫

1. lxml

lxml是Python的壹個解析庫,支持解析HTML和XML,支持XPath的解析方式,而且解析效率非常高。

2. beautifulsoup4

Beautiful Soup可以使用它更方便的從 HTML 文檔中提取數據。

3. pyquery

pyquery是壹個網頁解析庫,采用類似jquery的語法來解析HTML文檔。

三、 存儲庫

1. mysql

2. mongodb

3. redis

四、 爬蟲框架scrapy

Scrapy 是壹套異步處理框架,純python實現的爬蟲框架,用來抓取網頁內容以及各種圖片

需要先安裝scrapy基本依賴庫,比如lxml、pyOpenSSL、Twisted

  • 上一篇:ubuntu下怎麽安裝nodejs
  • 下一篇:kettle怎麽在Linux上面開發
  • copyright 2024編程學習大全網