數據科學家需要掌握的十大統計技術詳解

「數據科學家比程序員擅長統計，比統計學家擅長編程。」本文介紹了數據科學家需要掌握的十大統計技術，包括線性回歸、分類、重采樣、降維、無監督學習等。

不管妳對數據科學持什麽態度，都不可能忽略分析、組織和梳理數據的重要性。Glassdoor 網站根據大量雇主和員工的反饋數據制作了「美國最好的 25 個職位」榜單，其中第壹名就是數據科學家。盡管排名已經頂尖了，但數據科學家的工作內容壹定不會就此止步。隨著深度學習等技術越來越普遍、深度學習等熱門領域越來越受到研究者和工程師以及雇傭他們的企業的關註，數據科學家繼續走在創新和技術進步的前沿。

盡管具備強大的編程能力非常重要，但數據科學不全關於軟件工程（實際上，只要熟悉 Python 就足以滿足編程的需求）。數據科學家需要同時具備編程、統計學和批判思維能力。正如 Josh Wills 所說：「數據科學家比程序員擅長統計學，比統計學家擅長編程。」我自己認識很多軟件工程師希望轉型成為數據科學家，但是他們盲目地使用 TensorFlow 或 Apache Spark 等機器學習框架處理數據，而沒有全面理解其背後的統計學理論知識。因此他們需要系統地研究統計機器學習，該學科脫胎於統計學和泛函分析，並結合了信息論、最優化理論和線性代數等多門學科。

為什麽學習統計學習？理解不同技術背後的理念非常重要，它可以幫助妳了解如何使用以及什麽時候使用。同時，準確評估壹種方法的性能也非常重要，因為它能告訴我們某種方法在特定問題上的表現。此外，統計學習也是壹個很有意思的研究領域，在科學、工業和金融領域都有重要的應用。最後，統計學習是訓練現代數據科學家的基礎組成部分。統計學習方法的經典研究主題包括：

線性回歸模型

感知機

k 近鄰法

樸素貝葉斯法

決策樹

Logistic 回歸於最大熵模型

支持向量機

提升方法

EM 算法

隱馬爾可夫模型

條件隨機場

之後我將介紹 10 項統計技術，幫助數據科學家更加高效地處理大數據集的統計技術。在此之前，我想先厘清統計學習和機器學習的區別：

機器學習是偏向人工智能的分支

統計學習方法是偏向統計學的分支。

機器學習更側重大規模應用和預測準確率。

統計學系側重模型及其可解釋性，以及精度和不確定性。

二者之間的區別越來越模糊。

1. 線性回歸

在統計學中，線性回歸通過擬合因變量和自變量之間的最佳線性關系來預測目標變量。最佳擬合通過盡量縮小預測的線性表達式和實際觀察結果間的距離總和來實現。沒有其他位置比該形狀生成的錯誤更少，從這個角度來看，該形狀的擬合是「最佳」。線性回歸的兩個主要類型是簡單線性回歸和多元線性回歸。

簡單線性回歸使用壹個自變量通過擬合最佳線性關系來預測因變量的變化情況。多元線性回歸使用多個自變量通過擬合最佳線性關系來預測因變量的變化趨勢。

任意選擇兩個日常使用且相關的物體。比如，我有過去三年月支出、月收入和每月旅行次數的數據。現在我需要回答以下問題：

我下壹年月支出是多少？

哪個因素（月收入或每月旅行次數）在決定月支出方面更重要

月收入和每月旅行次數與月支出之間是什麽關系？

2. 分類

分類是壹種數據挖掘技術，為數據分配類別以幫助進行更準確的預測和分析。分類是壹種高效分析大型數據集的方法，兩種主要的分類技術是：logistic 回歸和判別分析（Discriminant Analysis）。

logistic 回歸是適合在因變量為二元類別的回歸分析。和所有回歸分析壹樣，logistic 回歸是壹種預測性分析。logistic 回歸用於描述數據，並解釋二元因變量和壹或多個描述事物特征的自變量之間的關系。logistic 回歸可以檢測的問題類型如下：

體重每超出標準體重壹磅或每天每抽壹包煙對得肺癌概率（是或否）的影響。

卡路裏攝入、脂肪攝入和年齡對心臟病是否有影響（是或否）？

在判別分析中，兩個或多個集合和簇等可作為先驗類別，然後根據度量的特征把壹個或多個新的觀察結果分類成已知的類別。判別分析對每個對應類中的預測器分布 X 分別進行建模，然後使用貝葉斯定理將其轉換成根據 X 的值評估對應類別的概率。此類模型可以是線性判別分析（Linear Discriminant Analysis），也可以是二次判別分析（Quadratic Discriminant Analysis）。

線性判別分析（LDA）：為每個觀察結果計算「判別值」來對它所處的響應變量類進行分類。這些分值可以通過找到自變量的線性連接來獲得。它假設每個類別的觀察結果都從多變量高斯分布中獲取，預測器變量的協方差在響應變量 Y 的所有 k 級別中都很普遍。

二次判別分析（QDA）：提供另外壹種方法。和 LDA 類似，QDA 假設 Y 每個類別的觀察結果都從高斯分布中獲取。但是，與 LDA 不同的是，QDA 假設每個類別具備自己的協方差矩陣。也就是說，預測器變量在 Y 的所有 k 級別中不是普遍的。

3. 重采樣方法

重采樣方法（Resampling）包括從原始數據樣本中提取重復樣本。這是壹種統計推斷的非參數方法。即，重采樣不使用通用分布來逼近地計算概率 p 的值。

重采樣基於實際數據生成壹個獨特的采樣分布。它使用經驗性方法，而不是分析方法，來生成該采樣分布。重采樣基於數據所有可能結果的無偏樣本獲取無偏估計。為了理解重采樣的概念，妳應該先了解自助法（Bootstrapping）和交叉驗證（Cross-Validation）：

自助法（Bootstrapping）適用於多種情況，如驗證預測性模型的性能、集成方法、偏差估計和模型方差。它通過在原始數據中執行有放回取樣而進行數據采樣，使用「未被選中」的數據點作為測試樣例。我們可以多次執行該操作，然後計算平均值作為模型性能的估計。

交叉驗證用於驗證模型性能，通過將訓練數據分成 k 部分來執行。我們將 k-1 部分作為訓練集，「留出」的部分作為測試集。將該步驟重復 k 次，最後取 k 次分值的平均值作為性能估計。

通常對於線性模型而言，普通最小二乘法是擬合數據時主要的標準。下面 3 個方法可以提供更好的預測準確率和模型可解釋性。

4 子集選擇

該方法將挑選 p 個預測因子的壹個子集，並且我們相信該子集和所需要解決的問題十分相關，然後我們就能使用該子集特征和最小二乘法擬合模型。

最佳子集的選擇：我們可以為 p 個預測因子的每個組合擬合單獨的 OLS 回歸，然後再考察各模型擬合的情況。該算法分為兩個階段：（1）擬合包含 k 個預測因子的所有模型，其中 k 為模型的最大長度；（2）使用交叉驗證預測損失選擇單個模型。使用驗證或測試誤差十分重要，且不能簡單地使用訓練誤差評估模型的擬合情況，這因為 RSS 和 R^2 隨變量的增加而單調遞增。最好的方法就是通過測試集中最高的 R^2 和最低的 RSS 來交叉驗證地選擇模型。

前向逐步地選擇會考慮 p 個預測因子的壹個較小子集。它從不含預測因子的模型開始，逐步地添加預測因子到模型中，直到所有預測因子都包含在模型。添加預測因子的順序是根據不同變量對模型擬合性能提升的程度來確定的，我們會添加變量直到再沒有預測因子能在交叉驗證誤差中提升模型

後向逐步選擇先從模型中所有 p 預測器開始，然後叠代地移除用處最小的預測器，每次移除壹個。

混合法遵循前向逐步方法，但是在添加每個新變量之後，該方法可能還會移除對模型擬合無用的變量。

5. Shrinkage

這種方法涉及到使用所有 p 個預測因子進行建模，然而，估計預測因子重要性的系數將根據最小二乘誤差向零收縮。這種收縮也稱之為正則化，它旨在減少方差以防止模型的過擬合。由於我們使用不同的收縮方法，有壹些變量的估計將歸零。因此這種方法也能執行變量的選擇，將變量收縮為零最常見的技術就是 Ridge 回歸和 Lasso 回歸。

Ridge 回歸非常類似於最小二乘法，只不過它通過最小化壹個稍微不同的數值來估計系數。Ridge 回歸和 OLS 壹樣尋求減少 RSS 的系數估計。然而當系數收縮逼近零值時，它們都會對這種收縮進行懲罰。我們不需要數學分析就能看出 Ridge 回歸很擅長於將特征收縮到最小的可能空間中。如主成分分析，Ridge 回歸將數據投影到 D 維空間，並在系數空間內收縮較低方差的成分而保留有較高方差的成分

Ridge 回歸至少有壹個缺點，它需要包含最終模型所有 p 個預測因子，這主要是因為罰項將會令很多預測因子的系數逼近零，但又壹定不會等於零。這對於預測準確度來說通常並不是什麽問題，但卻令模型的結果更難以解釋。Lasso 就克服了這壹缺點，因為它在 s 組後小的時候能迫使壹些預測因子的系數歸零。因為 s = 1 將導致正規的 OLS 回歸，而當 s 逼近 0 時，系數將收縮到零。因此 Lasso 回歸同樣是執行變量選擇的壹個好方法。

6. 降維

降維算法將 p+1 個系數的問題簡化為 M+1 個系數的問題，其中 M<p。算法執行包括計算變量的 M 個不同線性組合或投射（projection）。然後這 M 個投射作為預測器通過最小二乘法擬合壹個線性回歸模型。兩個主要的方法是主成分回歸（principal component regression）和偏最小二乘法（partial least squares）。

主成分回歸（PCR）可以看成壹種從大型變量集合中導出低維特征集合的方法。數據中的第壹主成分（first principal component）是指觀察數據沿著這個變量方向的變化最大。換言之，第壹主成分是最接近擬合數據的線，總***可以用 p 個不同的主成分擬合。第二主成分是和第壹主成分不相關的變量的線性組合，且在該約束下有最大的方差。其主要思想是主成分能在各個互相垂直的方向使用數據的線性組合捕捉到最大的方差。使用這種方法，我們還能結合相關變量的效應從數據中獲取更多的信息，畢竟在常規的最小二乘法中需要舍棄其中壹個相關變量。

上面描述的 PCR 方法需要提取 X 的線性組合，以獲得對的預測器的最優表征。由於 X 的輸出 Y 不能不能用於幫助決定主成分方向，這些組合（方向）使用無監督方法提取。即，Y 不能監督主成分的提取，從而無法保證這些方向是預測器的最優表征，也無法保證能獲得最優預測輸出（雖然通常假定如此）。偏最小二乘法（PLS）是壹種監督方法，作為 PCR 的代替方法。和 PCR 類似，PLS 也是壹種降維方法，它首先提取壹個新的較小的特征集合（原始特征的線性組合），然後通過最小二乘法將原來的模型擬合為壹個新的具有 M 個特征的線性模型。

7. 非線性模型

在統計學中，非線性回歸屬於壹種回歸分析形式，其中，觀測數據使用模型參數的非線性組合的函數（依賴於壹個或多個獨立變量）建模。其使用逐次逼近法擬合數據。下方是幾種處理非線性模型的重要技術。

階梯函數（step function），變量為實數，可以寫成區間的指示函數的有限線性組合的形式。非正式的解釋是，階梯函數是壹種分段常數函數，只有有限的部分。

分段函數（piecewise function）通過多個子函數定義，每壹個子函數被定義在主函數定義域的確定的區間上。分段實際上是壹種表示函數的方式，而不是函數自身的特征，但通過額外的限定條件，它可以用於描述函數的本質。例如，壹個分段多項式函數是壹個在每壹個子定義上為多項式的函數，其中每壹個多項式都可能是不同的。

樣條曲線（spline）是壹種用多項式分段定義的特殊函數。在計算機圖形學中，樣條曲線是壹種分段多項式參數化曲線。由於結構的簡單性、評估的簡易和高精度、通過曲線擬合和交互曲線設計以逼近復雜曲線的能力，樣條曲線很常用。

廣義加性模型（generalized additive model）是壹種廣義線性模型，其中線性預測器線性依賴於某些預測器變量的未知平滑函數，其主要作用就是推測這些平滑函數

8. 基於樹的方法

基於樹的方法可以用於回歸和分類問題，包括將預測器空間分層或分割成幾個簡單區域。由於用於預測器空間的分離規則集合可以總結為壹個樹，這類方法被稱為決策樹方法。以下的方法是幾種不同的樹，它們可以組合起來輸出單個壹致的預測。

bagging 能減少預測的方差，即通過從原始數據中生成額外的數據（通過組合和重復生成和原始數據大小相同的多段數據）用於訓練。通過增大訓練集無法提高模型的預測能力，只能減小方差，仔細地調整預測以得到期望的輸出。

boosting 是壹種計算輸出的方法，即使用多個不同的模型，然後使用加權平均的方法對結果取平均值。我們壹般通過改變這些方法所占的權重而結合各方法的優勢，此外，我們還可以使用不同的精細調整獲得對更寬泛輸入數據的預測能力。

隨機森林算法（random forest algorithm）實際上和 bagging 算法很相似，同樣是對訓練集提取隨機 bootstrap 樣本。然而，除了 bootstrap 樣本以外，還可以提取特征的隨機子集以訓練單個樹；而在 bagging 中，需要給每個樹提供整個特征集。由於特征選擇是隨機的，相比常規的 bagging 算法，每個樹之間更加獨立，從而通常能獲得更好的預測性能（得益於更好的方差—偏差權衡）。且計算速度也更快，因為每個樹只需要學習特征的壹個子集。

9. 支持向量機

支持向量機（SVM）是壹種常用的監督學習分類技術。通俗地說，它用於尋找對兩類點集做出最佳分離的超平面（hyperplane，在 2D 空間中是線，在 3D 空間中是面，在高維空間中是超平面。更正式的說法是，壹個超平面是壹個 n 維空間的 n-1 維子空間）。而支持向量機是保留最大的間隔的分離超平面，因此本質上，它是壹個約束最優化問題，其中支持向量機的間隔在約束下被最大化，從而完美地對數據進行分類（硬間隔分類器）。

那些「支持」著超平面的數據點被稱為「支持向量」。在上圖中，填充藍色圓和兩個填充方塊就是支持向量。在兩類數據不是線性可分的例子中，數據點將被投射到壹個更高維空間中，使得數據變得線性可分。包含多個類別的數據點的問題可以分解成多個「壹對壹」（one-versus-one）或「壹對剩余」（one-versus-rest）的二分類問題。

10. 無監督學習

目前為止，我們都只討論過監督學習技術，其中數據分類都是已知的，且提供給算法的經驗都是實體和其分類的關系。當數據的分類是未知的時候，就需要使用另壹種技術了。它們被稱為無監督的，因為它們需要自己去發現數據中的模式。聚類（clustring）是無監督學習的壹種，其中數據將根據相關性被分為多個群集。下方是幾種最常用的無監督學習算法：

主成分分析：通過保留具備最大方差和互相不相關的特征之間的線性連接，而幫助生成數據集的低維表示。該線性降維技術有助於理解無監督學習中的隱變量交互。

k 均值聚類：根據數據到集群中心的距離將其分成 k 個不同的集群。

層次聚類：通過數據的層級表示而構建不同的集群。

上一篇:我要漢化壹個軟件，怎麽辦啊？

下一篇:19屆中小學電腦制作活動小學組課件模型推薦

參加大數據開發培訓要掌握哪些方面基礎

能同時用於Android和iOS的APP UI設計怎麽做