如何成為壹名數據科學家

我認為有幾個大方面

1）學好 python。

現在幾乎所以公司的數據都可以 api 給妳，而 python 的數據處理能力強大且方便。加之在 machine learning 的很多算法上，python 也獨俏壹方。另外，它的簡明方便迅速叠代開發，15 分鐘寫完個算法就可以看效果了。

除此之外，py 還有點酷酷的感覺。任何程序拿 matlab 和 c++ 都是可以寫的，不過我真沒認識過哪個 d 願意自己把自己扔那個不酷的框框裏:D

對不規則輸入的處理也給 python 壹個巨大的優勢。通常來說，在我現在日常的工作裏，所有的數據都是以純文本但是非格式的形式存儲的（raw text, unstructured data)。問題在於，這些文本不可以直接當作各種算法的輸入，妳需要

分詞，分句

提取特征

整理缺失數據

除掉異類（outlier）

在這些時候，python 可謂是神器。這裏做的 1-4 都可以直接在 scikit-learn 裏面找到對應的工具，而且，即使是要自己寫壹個定制的算法處理某些特殊需求，也就是壹百行代碼的事情。

簡而言之，對於數據科學面臨的挑戰，python 可以讓妳短平快地解決手中的問題，而不是擔心太多實現細節。

2）學好統計學習

略拗口。統計學習的概念就是“統計機器學習方法”。

統計和計算機科學前幾十年互相平行著，互相造出了對方造出的壹系列工具，算法。但是直到最近人們開始註意到，計算機科學家所謂的機器學習其實就是統計裏面的 prediction 而已。因此這兩個學科又開始重新融合。

為什麽統計學習很重要？

因為，純粹的機器學習講究算法預測能力和實現，但是統計壹直就強調“可解釋性”。比如說，針對今天微博股票發行就上升 20%，妳把妳的兩個預測股票上漲還是下跌的 model 套在新浪的例子上，然後給妳的上司看。

Model-1 有 99%的預測能力，也就是 99%的情況下它預測對，但是 Model-2 有 95%，不過它有例外的壹個附加屬性——可以告訴妳為什麽這個股票上漲或者下跌。

試問，妳的上司會先哪個？問問妳自己會選哪個？

顯然是後者。因為前者雖然有很強的預測力（機器學習），但是沒有解釋能力（統計解釋）。

而作為壹個數據科學家，80%的時間妳是需要跟客戶，團隊或者上司解釋為什麽 A 可行 B 不可行。如果妳告訴他們，“我現在的神經網絡就是能有那麽好的預測力可是我根本就沒法解釋上來”，那麽，沒有人會願意相信妳。

具體壹些，怎麽樣學習統計學習？

先學好基本的概率學。如果大學裏的還給老師了（跟我壹樣），那麽可以從 MIT 的概率論教材1入手。從第 1 章到第 9 章看完並做完所有的習題。（p.s.面試 Twitter 的時候被問到壹個拿球後驗概率的問題，從這本書上抓來的）。

了解基本的統計檢驗及它們的假設，什麽時候可以用到它們。

快速了解統計學習有哪些術語，用來做什麽目的，讀這本5。

學習基本的統計思想。有 frequentist 的統計，也有 bayesian 的統計。前者的代表作有2，後者看3。前者是統計學習的聖書，偏 frequentist，後者是 pattern recognition 的聖書，幾乎從純 bayesian 的角度來講。註意，2有免費版，作者把它全放在了網上。而且有壹個簡易版，如果感覺力不從心直接看2，那麽可以先從它的簡易版開始看。簡易版4是作者在 coursera 上開課用的大眾教材，簡單不少（不過仍然有很多閃光點，通俗易懂）。對於3，壹開始很難直接啃下來，但是啃下來會受益匪淺。

註意，以上的書搜壹下幾乎全可以在網上搜到別人傳的 pdf。有條件的同學可以買壹下紙制版來讀，體驗更好並且可以支持壹下作者。所有的書我都買了紙制版，但是我知道在國內要買本書有多不方便（以及原版書多貴）。

讀完以上的書是個長期過程。但是大概讀了壹遍之後，我個人覺得是非常值得的。如果妳只是知道怎麽用壹些軟件包，那麽妳壹定成不了壹個合格的 data scientist。因為只要問題稍加變化，妳就不知道怎麽解決了。

如果妳感覺自己是壹個二吊子數據科學家（我也是）那麽問壹下下面幾個問題，如果有 2 個答不上來，那麽妳就跟我壹樣，真的還是二吊子而已，繼續學習吧。

為什麽在神經網絡裏面 feature 需要 standardize 而不是直接扔進去

對 Random Forest 需要做 Cross-Validatation 來避免 overfitting 嗎？

用 naive-bayesian 來做 bagging，是不是壹個不好的選擇？為什麽？

在用 ensembe 方法的時候，特別是 Gradient Boosting Tree 的時候，我需要把樹的結構變得更復雜（high variance, low bias)還是更簡單（low variance, high bias)呢？為什麽？

如果妳剛開始入門，沒有關系，回答不出來這些問題很正常。如果妳是壹個二吊子，體會壹下，為什麽妳跟壹流的 data scientist 還有些差距——因為妳不了解每個算法是怎麽工作，當妳想要把妳的問題用那個算法解決的時候，面對無數的細節，妳就無從下手了。

說個題外話，我很欣賞壹個叫 Jiro 的壽司店，它的店長在（東京？）壹個最不起眼的地鐵站開了壹家全世界最貴的餐館，預訂要提前 3 個月。怎麽做到的？70 年如壹日練習如何做壽司。70 年！除了喪娶之外的假期，店長每天必到，8 個小時工作以外繼續練習壽司做法。

其實學數據科學也壹樣，沈下心來，練習匠藝。

3）學習數據處理

這壹步不必獨立於 2）來進行。顯然，妳在讀這些書的時候會開始碰到各種算法，而且這裏的書裏也會提到各種數據。但是這個年代最不值錢的就是數據了（拜托，為什麽還要用 80 年代的“加州房價數據”？），值錢的是數據分析過後提供給決策的價值。那麽與其糾結在這麽悲劇的 80 年代數據集上，為什麽不自己搜集壹些呢？

開始寫壹個小程序，用 API 爬下 Twitter 上隨機的 tweets（或者 weibo 吧。。。）

對這些 tweets 的 text 進行分詞，處理噪音（比如廣告）

用壹些現成的 label 作為 label，比如 tweet 裏會有這條 tweet 被轉發了幾次

嘗試寫壹個算法，來預測 tweet 會被轉發幾次

在未見的數據集上進行測試

如上的過程不是壹日之功，尤其剛剛開始入門的時候。慢慢來，耐心大於進度。

4）變成全能工程師（full stack engineer）

在公司環境下，作為壹個新入職的新手，妳不可能有優待讓妳在需要寫壹個數據可視化的時候，找到壹個同事來給妳做。需要寫把數據存到數據庫的時候，找另壹個同事來給妳做。

況且即使妳有這個條件，這樣頻繁切換上下文會浪費更多時間。比如妳讓同事早上給妳塞壹下數據到數據庫，但是下午他才給妳做好。或者妳需要很長時間給他解釋，邏輯是什麽，存的方式是什麽。

最好的變法，是把妳自己武裝成壹個全能工作師。妳不需要成為各方面的專家，但是妳壹定需要各方面都了解壹點，查壹下文檔可以上手就用。

會使用 NoSQL。尤其是 MongoDB

學會基本的 visualization，會用基礎的 html 和 javascript，知道 d36這個可視化庫，以及 highchart7