當前位置:編程學習大全網 - 編程軟體 - python如何搭建分布式爬蟲呀

python如何搭建分布式爬蟲呀

爬蟲本質上不需要分布式。因為妳要爬壹個網站通常5-10個線程足夠了,再多就是對網站壓力測試了。

妳只需要將任務分配到不同的機器上,然後各運行各自己的,結果合並壹下就可以。 這個與nutch人map, reduse也沒有什麽差別。只是手工分,手工合並。當然也可以用腳本分,腳本合並,腳本遠程啟動。有壹個遠程控制模塊,似乎叫rpy。很簡單,很容易上手。可以遠程控制壹個模塊。

數據庫用postgresql不是很好。因為爬行結果放在關系型數據庫裏太吃力。特別是網頁內容。通常是URL放在redis裏。 內容放在文件系統裏,妳可以用hadoop+hdfs+thrift方案放在hadoop裏。

如果使用了hadoop,就幹脆模仿nutch的流程,把python腳本也交給hadoop去管理好了。

至於控制與通信這個都讓hadoop來處理好了。

當然我個人覺著rpy方式更簡單。 裏面控制與通信都是現成的。10分鐘就學會了。

還是回到原來的說法,大部分情況下,單機多線程跑爬蟲足夠用了。 不需要分布式。而且效率甚至比分布式更高。

  • 上一篇:VC編程:用序列化打開DIB位
  • 下一篇:C語言怎麽輸入方向鍵左?
  • copyright 2024編程學習大全網