當前位置:編程學習大全網 - 網站源碼 - Python,Node.js 哪個比較適合寫爬蟲

Python,Node.js 哪個比較適合寫爬蟲

簡單的定向爬取:

Python + urlib2 + RegExp + bs4

或者

Node.js + co,任壹壹款dom框架或者html parser + Request + RegExp 擼起來也是很順手。

對我來說上面兩個選擇差不多是等價的,但主要我JS比較熟,現在選擇Node平臺會多壹些。

上規模的整站爬取:

Python + Scrapy

如果說上面兩個方案裏DIY 的 spider是小米加步槍,那Scrapy簡直就是重工加農炮,好用到不行,自定義爬取規則,http錯誤處理,XPath,RPC,Pipeline機制等等等。而且,由於Scrapy是基於Twisted實現的,所以同時兼顧有非常好的效率,相對來說唯壹的缺點就是安裝比較麻煩,依賴也比較多,我還算是比較新的osx,壹樣沒辦法直接pip install scrapy

另外如果在spider中引入xpath的話,再在chrome上安裝xpath的插件,那麽解析路徑壹目了然,開發效率奇高。

  • 上一篇:eclipse沒有springboot
  • 下一篇:活性氧化鋁求的要求指標有哪些,怎麽辨別質量的好壞!
  • copyright 2024編程學習大全網