當前位置:編程學習大全網 - 編程語言 - 為什麽大數據選擇python

為什麽大數據選擇python

大數據的數據從哪裏來?除了部分企業有能力自己產生大量的數據,大部分時候,是需要靠爬蟲來抓取互聯網數據來做分析。

網絡爬蟲是Python的傳統強勢領域,最流行的爬蟲框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能夠獨當壹面的類庫。

不過,網絡爬蟲並不僅僅是打開網頁,解析HTML這麽簡單。高效的爬蟲要能夠支持大量靈活的並發操作,常常要能夠同時幾千甚至上萬個網頁同時抓取,傳統的線程池方式資源浪費比較大,線程數上千之後系統資源基本上就全浪費在線程調度上了。Python由於能夠很好的支持協程(Coroutine)操作,基於此發展起來很多並發庫,如Gevent,Eventlet,還有Celery之類的分布式任務框架。被認為是比AMQP更高效的ZeroMQ也是最早就提供了Python版本。有了對高並發的支持,網絡爬蟲才真正可以達到大數據規模。

抓取下來的數據,需要做分詞處理,Python在這方面也不遜色,著名的自然語言處理程序包NLTK,還有專門做中文分詞的Jieba,都是做分詞的利器。

數據處理

萬事俱備,只欠東風。這東風,就是數據處理算法。從統計理論,到數據挖掘,機器學習,再到最近幾年提出來的深度學習理論,數據科學正處於百花齊放的時代。數據科學家們都用什麽編程?

如果是在理論研究領域,R語言也許是最受數據科學家歡迎的,但是R語言的問題也很明顯,因為是統計學家們創建了R語言,所以其語法略顯怪異。而且R語言要想實現大規模分布式系統,還需要很長壹段時間的工程之路要走。所以很多公司使用R語言做原型試驗,算法確定之後,再翻譯成工程語言。

Python也是數據科學家最喜歡的語言之壹。和R語言不同,Python本身就是壹門工程性語言,數據科學家用Python實現的算法,可以直接用在產品中,這對於大數據初創公司節省成本是非常有幫助的。正式因為數據科學家對Python和R的熱愛,Spark為了討好數據科學家,對這兩種語言提供了非常好的支持。

Python的數據處理相關類庫非常多。高性能的科學計算類庫NumPy和SciPy,給其他高級算法打了非常好的基礎,matploglib讓Python畫圖變得像Matlab壹樣簡單。Scikit-learn和Milk實現了很多機器學習算法,基於這兩個庫實現的Pylearn2,是深度學習領域的重要成員。Theano利用GPU加速,實現了高性能數學符號計算和多維矩陣計算。當然,還有Pandas,壹個在工程領域已經廣泛使用的大數據處理類庫,其DataFrame的設計借鑒自R語言,後來又啟發了Spark項目實現了類似機制。

對了,還有iPython,這個工具如此有用,以至於我差點把他當成標準庫而忘了介紹。iPython是壹個交互式Python運行環境,能夠實時看到每壹段Python代碼的結果。默認情況下,iPython運行在命令行,可以執行ipython notebook在網頁中運行。用matplotlib繪制的圖可以直接嵌入式的顯示在iPython Notebook中。

iPython Notebook的筆記本文件可以***享給其他人,這樣其他人就可以在自己的環境中重現妳的工作成果;如果對方沒有運行環境,還可以直接轉換成HTML或者PDF。

為什麽是Python

正是因為應用開發工程師、運維工程師、數據科學家都喜歡Python,才使得Python成為大數據系統的全棧式開發語言。

對於開發工程師而言,Python的優雅和簡潔無疑是最大的吸引力,在Python交互式環境中,執行import this,讀壹讀Python之禪,妳就明白Python為什麽如此吸引人。Python社區壹直非常有活力,和NodeJS社區軟件包爆炸式增長不同,Python的軟件包增長速度壹直比較穩定,同時軟件包的質量也相對較高。有很多人詬病Python對於空格的要求過於苛刻,但正是因為這個要求,才使得Python在做大型項目時比其他語言有優勢。OpenStack項目總***超過200萬行代碼,證明了這壹點。

對於運維工程師而言,Python的最大優勢在於,幾乎所有Linux發行版都內置了Python解釋器。Shell雖然功能強大,但畢竟語法不夠優雅,寫比較復雜的任務會很痛苦。用Python替代Shell,做壹些復雜的任務,對運維人員來說,是壹次解放。

對於數據科學家而言,Python簡單又不失強大。和C/C++相比,不用做很多的底層工作,可以快速進行模型驗證;和Java相比,Python語法簡潔,表達能力強,同樣的工作只需要1/3代碼;和Matlab,Octave相比,Python的工程成熟度更高。不止壹個編程大牛表達過,Python是最適合作為大學計算機科學編程課程使用的語言——MIT的計算機入門課程就是使用的Python——因為Python能夠讓人學到編程最重要的東西——如何解決問題。

  • 上一篇:考壹個pmp證書大概需要多少錢?考試費用為什麽這麽貴?
  • 下一篇:說說Linux的發展前景怎樣?
  • copyright 2024編程學習大全網