當前位置:編程學習大全網 - 源碼下載 - Python寫爬蟲都用到什麽庫

Python寫爬蟲都用到什麽庫

Python爬蟲,全稱Python網絡爬蟲,是壹種按照壹定的規則,自動地抓取萬維網信息的程序或腳本,主要用於抓取證券交易數據、天氣數據、網站用戶數據和圖片數據等,Python為支持網絡爬蟲正常功能實現,內置了大量的庫,主要有幾種類型。下面本篇文章就來給大家介紹。

壹、Python爬蟲網絡庫

Python爬蟲網絡庫主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket、Unirest for Python、hyper、PySocks、treq以及aiohttp等。

二、Python網絡爬蟲框架

Python網絡爬蟲框架主要包括:grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。

三、HTML/XML解析器?

●lxml:C語言編寫高效HTML/ XML處理庫。支持XPath。

●cssselect:解析DOM樹和CSS選擇器。

●pyquery:解析DOM樹和jQuery選擇器。

●BeautifulSoup:低效HTML/ XML處理庫,純Python實現。

●html5lib:根據WHATWG規範生成HTML/ XML文檔的DOM。該規範被用在現在所有的瀏覽器上。

●feedparser:解析RSS/ATOM feeds。

●MarkupSafe:為XML/HTML/XHTML提供了安全轉義的字符串。

●xmltodict:壹個可以讓妳在處理XML時感覺像在處理JSON壹樣的Python模塊。

●xhtml2pdf:將HTML/CSS轉換為PDF。

●untangle:輕松實現將XML文件轉換為Python對象。

四、文本處理

用於解析和操作簡單文本的庫。

●difflib:(Python標準庫)幫助進行差異化比較。

●Levenshtein:快速計算Levenshtein距離和字符串相似度。

●fuzzywuzzy:模糊字符串匹配。

●esmre:正則表達式加速器。

●ftfy:自動整理Unicode文本,減少碎片化。

五、特定格式文件處理

解析和處理特定文本格式的庫。

●tablib:壹個把數據導出為XLS、CSV、JSON、YAML等格式的模塊。

●textract:從各種文件中提取文本,比如 Word、PowerPoint、PDF等。

●messytables:解析混亂的表格數據的工具。

●rows:壹個常用數據接口,支持的格式很多(目前支持CSV,HTML,XLS,TXT:將來還會提供更多!)。

  • 上一篇:妳知道賺錢最快的方法嗎?
  • 下一篇:數據結構:產品進銷存管理系統的源代碼(c語言或c++的)
  • copyright 2024編程學習大全網