單高斯模型SGM & 高斯混合模型GMM

在了解高斯混合模型之前，我們先來看看什麽是高斯分布，高斯分布大家應該都比較熟悉了，就是我們平時所說的正態分布，也叫高斯分布。正態分布是壹個在數學、物理及工程等領域都非常重要的概率分布，在統計學的許多方面有著重大的影響力。

正態分布的特點

集中性：正態曲線的高峰位於正中央，即均數所在的位置。

對稱性：正態曲線以均數為中心，左右對稱，曲線兩端永遠不與橫軸相交。

均勻變動性：正態曲線由均數所在處開始，分別向左右兩側逐漸均勻下降。

若隨機變量服從壹個數學期望為、方差為的正態分布，記為。其中期望值決定了其位置，標準差決定了分布的幅度。當 = 0， = 1時，正態分布是標準正態分布。

正態分布有極其廣泛的實際背景， 生產與科學實驗中很多隨機變量的概率分布都可以近似地用正態分布來描述 。例如，在生產條件不變的情況下，產品的強力、抗壓強度、口徑、長度等指標；同壹種生物體的身長、體重等指標；同壹種種子的重量；測量同壹物體的誤差；彈著點沿某壹方向的偏差；某個地區的年降水量；以及理想氣體分子的速度分量，等等。壹般來說，如果壹個量是由許多微小的獨立隨機因素影響的結果，那麽就可以認為這個量具有正態分布（見中心極限定理）。從理論上看，正態分布具有很多良好的性質，許多概率分布可以用它來近似；還有壹些常用的概率分布是由它直接導出的，例如對數正態分布、t分布、F分布等。

高斯模型有單高斯模型（SGM）和混合高斯模型（GMM）兩種。

概率密度函數服從上面的正態分布的模型叫做單高斯模型，具體形式如下：

當樣本數據是壹維數據（Univariate）時，高斯模型的概率密度函數為：

其中：為數據的均值，為數據的標準差。

當樣本數據是多維數據（Univariate）時，高斯模型的概率密度函數為：

其中：為數據的均值，為協方差，d為數據維度。

高斯混合模型（GMM）是單高斯概率密度函數的延伸，就是用多個高斯概率密度函數（正態分布曲線）精確地量化變量分布，是將變量分布分解為若幹基於高斯概率密度函數（正態分布曲線）分布的統計模型。

用通俗壹點的語言解釋就是，個單高斯模型混合在壹起，生成的模型，就是高斯混合模型。這個子模型是混合模型的隱變量（Hidden variable）。壹般來說，壹個混合模型可以使用任何概率分布，這裏使用高斯混合模型是因為高斯分布具備很好的數學性質以及良好的計算性能。

GMM是工業界使用最多的壹種聚類算法。它本身是壹種概率式的聚類方法，假定所有的樣本數據X由K個混合多元高斯分布組合成的混合分布生成。

高斯混合模型的概率密度函數可以表示為：

其中：

是觀察數據屬於第個子模型的概率，；