python如何搭建分布式爬蟲呀

爬蟲本質上不需要分布式。因為妳要爬壹個網站通常5-10個線程足夠了，再多就是對網站壓力測試了。

妳只需要將任務分配到不同的機器上，然後各運行各自己的，結果合並壹下就可以。這個與nutch人map, reduse也沒有什麽差別。只是手工分，手工合並。當然也可以用腳本分，腳本合並，腳本遠程啟動。有壹個遠程控制模塊，似乎叫rpy。很簡單，很容易上手。可以遠程控制壹個模塊。

數據庫用postgresql不是很好。因為爬行結果放在關系型數據庫裏太吃力。特別是網頁內容。通常是URL放在redis裏。內容放在文件系統裏，妳可以用hadoop+hdfs+thrift方案放在hadoop裏。

如果使用了hadoop，就幹脆模仿nutch的流程，把python腳本也交給hadoop去管理好了。

至於控制與通信這個都讓hadoop來處理好了。

當然我個人覺著rpy方式更簡單。裏面控制與通信都是現成的。10分鐘就學會了。

還是回到原來的說法，大部分情況下，單機多線程跑爬蟲足夠用了。不需要分布式。而且效率甚至比分布式更高。