當前位置:編程學習大全網 - 源碼下載 - 單高斯模型SGM & 高斯混合模型GMM

單高斯模型SGM & 高斯混合模型GMM

在了解高斯混合模型之前,我們先來看看什麽是高斯分布,高斯分布大家應該都比較熟悉了,就是我們平時所說的正態分布,也叫高斯分布。正態分布是壹個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。

正態分布的特點

集中性:正態曲線的高峰位於正中央,即均數所在的位置。

對稱性:正態曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交。

均勻變動性:正態曲線由均數所在處開始,分別向左右兩側逐漸均勻下降。

若隨機變量 服從壹個數學期望為 、方差為 的正態分布,記為 。其中期望值 決定了其位置,標準差 決定了分布的幅度。當 = 0, = 1時,正態分布是標準正態分布。

正態分布有極其廣泛的實際背景, 生產與科學實驗中很多隨機變量的概率分布都可以近似地用正態分布來描述 。例如,在生產條件不變的情況下,產品的強力、抗壓強度、口徑、長度等指標;同壹種生物體的身長、體重等指標;同壹種種子的重量;測量同壹物體的誤差;彈著點沿某壹方向的偏差;某個地區的年降水量;以及理想氣體分子的速度分量,等等。壹般來說,如果壹個量是由許多微小的獨立隨機因素影響的結果,那麽就可以認為這個量具有正態分布(見中心極限定理)。從理論上看,正態分布具有很多良好的性質 ,許多概率分布可以用它來近似;還有壹些常用的概率分布是由它直接導出的,例如對數正態分布、t分布、F分布等。

高斯模型有單高斯模型(SGM)和混合高斯模型(GMM)兩種。

概率密度函數服從上面的正態分布的模型叫做單高斯模型,具體形式如下:

當樣本數據 是壹維數據(Univariate)時,高斯模型的概率密度函數為:

其中: 為數據的均值, 為數據的標準差。

當樣本數據 是多維數據(Univariate)時,高斯模型的概率密度函數為:

其中: 為數據的均值, 為協方差,d為數據維度。

高斯混合模型(GMM)是單高斯概率密度函數的延伸,就是用多個高斯概率密度函數(正態分布曲線)精確地量化變量分布,是將變量分布分解為若幹基於高斯概率密度函數(正態分布曲線)分布的統計模型。

用通俗壹點的語言解釋就是, 個單高斯模型混合在壹起,生成的模型,就是高斯混合模型。這 個子模型是混合模型的隱變量(Hidden variable)。壹般來說,壹個混合模型可以使用任何概率分布,這裏使用高斯混合模型是因為高斯分布具備很好的數學性質以及良好的計算性能。

GMM是工業界使用最多的壹種聚類算法。它本身是壹種概率式的聚類方法,假定所有的樣本數據X由K個混合多元高斯分布組合成的混合分布生成。

高斯混合模型的概率密度函數可以表示為:

其中:

是觀察數據屬於第 個子模型的概率, ;

是第 個的單高斯子模型的概率密度函數, 或

,具體函數見上方單高斯模型的概率密度函數。

參數估計有多種方法,有矩估計、極大似然法、壹致最小方差無偏估計、最小風險估計、同變估計、最小二乘法、貝葉斯估計、極大驗後法、最小風險法和極小化極大熵法等。最基本的方法是最小二乘法和極大似然法。

極大似然估計的思想是 :隨機試驗有多個可能的結果,但在壹次試驗中,有且只有壹個結果會出現,如果在某次試驗中,結果w出現了,則認為該結果發生的概率最大。

1)寫出似然函數:

假設單個樣本的概率函數為 ,對每個樣本的概率函數連乘,就可以得到樣本的似然函數

2)對似然函數取對數:

目的是為了讓乘積變成加法,方便後續運算

3)求導數,令導數為0,得到似然方程:

和 在同壹點取到最大值,所以可以通過對 求導,令導數為零,實現同個目的

4)解似然方程,得到的參數即為所求

對於單高斯模型,可以使用極大似然估計(MLE)來求解出參數的值。

單高斯模型的對數似然函數為:

上式分別對 和 求偏導數,然後令其等於0,可以得到對應的參數估計值:

如果依然按照上面的極大似然估計方法求參數

GMM的對數似然函數為:

對上式求各個參數的偏導數,然後令其等於0,並且還需要附件壹個條件: 。

我們會發現,直接求導無法計算出參數。所以我們需要用其它方式去解決參數估計問題,壹般情況下我們使用的是叠代的方法,用期望最大算法(Expectation Maximization,EM)進行估計。

EM算法的具體原理以及示例見我的另外壹篇文章。

  • 上一篇:鄭州市全民義務植樹實施辦法(2018修正)
  • 下一篇:用友U8系統為什麽盤點單顯示的賬面數量與現存量或臺賬結存數量不壹致?
  • copyright 2024編程學習大全網