當前位置:編程學習大全網 - 編程軟體 - Python 3 網絡爬蟲學習建議?

Python 3 網絡爬蟲學習建議?

用py3寫爬蟲的話,強力推薦這本書,應該是目前最系統最完善介紹python爬蟲的書。可以去圖靈社區買電子版。書的內容很新也很系統,從beautifulSoup,requests到ajax,圖像識別,單元測試。比起絕大多數blog零散的教程要好的多,看完書後就可以去做些實戰項目,這個時候可以去github上找類似的項目借鑒下。英文版pdf:個人覺得英文版更好)中文版pdf:這本書內容比較淺,我表示贊同。但是對於新手來說,看完這本書,對於爬蟲基礎的應用與概念絕對有了初步的了解。其實國內有壹本講爬蟲的好書,《自己動手寫網絡爬蟲》,這本書除了介紹爬蟲基本原理,包括優先級,寬度優先搜索,分布式爬蟲,多線程,還有雲計算,數據挖掘內容。只不過用了java來實現,但是思路是相同的。有這幾個包基本上就夠用了。當初學習爬蟲的時候壹點都不懂,甚至連爬蟲是什麽都不知道就在學了,但是懷著不懂裝懂的精神,到現在基本上也算對爬蟲了解壹二。正如妳所說,爬蟲是個大坑!因為這不僅僅是Python的事,想要學好爬蟲,需要學習:網絡基礎知識(post/get/抓包)、(推薦)正則表達式(re模塊)、多線程/多進程、數據庫(儲存)。還有各種各樣的問題:Python蛋疼的編碼問題、遇到Ajax就要用selenium(效率低)、遇到驗證碼腫麽辦(我放棄)、需要模擬登錄(我直接用cookies,在這裏推薦requests,用法是:被網站禁ip等等所以,如果妳是想學爬蟲,那麽就慢慢磨吧。但是妳是想學習機器學習,網上那麽多的數據集,可以不必專門學。

  • 上一篇:vb中如何編壹個解類似數學題的程序:x=1,y=2 求的題,就是如和讓其代入並計算
  • 下一篇:怎麽用cftpconnection類編寫向ftp server上傳文件
  • copyright 2024編程學習大全網