Python，Node.js 哪個比較適合寫爬蟲

簡單的定向爬取：

Python + urlib2 + RegExp + bs4

或者

Node.js + co，任壹壹款dom框架或者html parser + Request + RegExp 擼起來也是很順手。

對我來說上面兩個選擇差不多是等價的，但主要我JS比較熟，現在選擇Node平臺會多壹些。

上規模的整站爬取：

Python + Scrapy

如果說上面兩個方案裏DIY 的 spider是小米加步槍，那Scrapy簡直就是重工加農炮，好用到不行，自定義爬取規則，http錯誤處理，XPath，RPC，Pipeline機制等等等。而且，由於Scrapy是基於Twisted實現的，所以同時兼顧有非常好的效率，相對來說唯壹的缺點就是安裝比較麻煩，依賴也比較多，我還算是比較新的osx，壹樣沒辦法直接pip install scrapy

另外如果在spider中引入xpath的話，再在chrome上安裝xpath的插件，那麽解析路徑壹目了然，開發效率奇高。

上一篇:eclipse沒有springboot

下一篇:活性氧化鋁求的要求指標有哪些，怎麽辨別質量的好壞！

ug模型去參數之後如何查看

Redis源代碼構造

請把以下公式改編選股公式，5天內連續出現4天紅色的的選股公式，送分，謝謝

jdk是什麽

和平精英虛擬機驗證收不到驗證碼

java開源是什麽意思

js中scroll滾動怎麽設置動畫過渡，就像JQ中的$("body").animate({"scr