當前位置:編程學習大全網 - 行動軟體 - 協方差矩陣的簡單介紹

協方差矩陣的簡單介紹

協方差(Covariance)在概率論和統計學中用於衡量兩個變量的總體誤差。而方差是協方差的壹種特殊情況,即當兩個變量是相同的情況。

其實簡單來講,協方差就是衡量兩個變量相關性的變量。當協方差為正時,兩個變量呈正相關關系(同增同減);當協方差為負時,兩個變量呈負相關關系(壹增壹減)。而協方差矩陣,只是將所有變量的協方差關系用矩陣的形式表現出來而已。通過矩陣這壹工具,可以更方便地進行數學運算。

回想概率統計裏面關於方差的數學定義:

Var(X)=\frac{\sum_{i=1}^n{(x_i-\overline x)(x_i-\overline x)}}{n-1}

協方差的數學定義異曲同工:

Cov(X,Y)=\frac{\sum_{i=1}^n{(x_i-\overline x)(y_i-\overline y)}}{n-1}

這裏的 X , Y 表示兩個變量空間。用機器學習的話講,就是樣本有 x 和 y 兩種特征,而 X 就是包含所有樣本的 x 特征的集合, Y 就是包含所有樣本的 y 特征的集合。

有了上面的數學定義後,我們可以來討論協方差矩陣了。當然,協方差本身就能夠處理二維問題,兩個變量的協方差矩陣並沒有實際意義,不過為了方便後面多維的推廣,我們還是從二維開始。

用壹個例子來解釋會更加形象。

假設我們有 4 個樣本,每個樣本都有兩個變量,也就是兩個特征,它們表示如下: x_1=(1,2) , x_2=(3,6) , x_3=(4,2) , x_4=(5,2)

用壹個矩陣表示為:

Z=\begin{bmatrix} 1 & 2 \\ 3 & 6 \\ 4 & 2 \\ 5 & 2 \end{bmatrix}

現在,我們用兩個變量空間X ,Y 來表示這兩個特征:

X=\begin{bmatrix} 1 \\ 3 \\ 4 \\ 5 \end{bmatrix}, \ \ \ Y=\begin{bmatrix} 2 \\ 6 \\ 2 \\ 2 \end{bmatrix}

由於協方差反應的是兩個變量之間的相關性,因此,協方差矩陣表示的是所有變量之間兩兩相關的關系,具體來講,壹個包含兩個特征的矩陣,其協方差矩陣應該有2 \times 2 大小:

Cov(Z)=\begin{bmatrix} Cov(X,X) & Cov(X,Y) \ Cov(Y,X) & Cov(Y,Y) \end{bmatrix}

接下來,就來逐壹計算 Cov(Z) 的值。 首先,我們需要先計算出 X , Y 兩個特征空間的平均值: \overline x=3.25 , \overline y=3 。 然後,根據協方差的數學定義,計算協方差矩陣的每個元素:

Cov(X,X)=\frac{(1-3.25)^2+(3-3.25)^2+(4-3.25)^2+(5-3.25)^2}{4-1}=2.9167

Cov(X,Y)=\frac{(1-3.25)(2-3)+(3-3.25)(6-3)+(4-3.25)(2-3)+(5-3.25)(2-3)}{4-1}=-0.3333

Cov(Y,X)=\frac{(2-3)(1-3.25)+(6-3)(3-3.25)+(2-3)(4-3.25)+(2-3)(5-3.25)}{4-1}=-0.3333

Cov(Y,Y)=\frac{(2-3)^2+(6-3)^2+(2-3)^2+(2-3)^2}{4-1}=4

所以協方差矩陣

Cov(Z)=\begin{bmatrix} 2.9167 & -0.3333 \\ -0.3333 & 4.000 \end{bmatrix}

好了,雖然這只是壹個二維特征的例子,但我們已經可以從中總結出協方差矩陣 \Sigma 的「計算套路」:

\Sigma_{ij}=\frac{(樣本矩陣第i列-第i列均值)^T(樣本矩陣第j列-第j列均值)}{樣本數-1}

這裏所說的樣本矩陣可以參考上面例子中的 Z 。

接下來,就用上面推出的計算協方差矩陣的「普世規律」。 假設我們有三個樣本: x_1=(1,2,3,4)^T , x_2=(3,4,1,2)^T , x_3=(2,3,1,4)^T 。 同理我們將它們表示成樣本矩陣:

Z=\begin{bmatrix} 1 & 2 & 3 & 4 \\ 3 & 4 & 1 & 2 \\ 2 & 3 & 1 & 4 \end{bmatrix}

按照上面給出的計算套路,我們需要先計算出矩陣每壹列的均值,從左到右分別為:2、3、1.67、3.33。 然後按照上面講到的公式,計算矩陣每個元素的值,對了,四個變量的協方差矩陣,大小為 4 \times 4 :

\Sigma_{11}=\frac{(第1列-第1列的均值)^T(第1列-第1列的均值)}{樣本數-1}=\frac{(-1,1,0)^T(-1,1,0)}{2}=1

(後面的依此類推)

以上的討論都是針對壹般情況進行計算的,畢竟變量互相獨立的情況較少。

不過,如果兩個變量X , Y 獨立,那麽它們的協方差 Cov(X,Y) = 0 。簡要證明如下(簡單起見,假設變量是離散的):

由於 X, Y 獨立,所以它們的概率密度函數滿足:p(x,y)=p_x(x)p_y(y) 。

求出期望:

\begin{eqnarray} E(XY) & = &\sum_x \sum_y {x \times y \times p(x,y)} \notag \ & = &\sum_x \sum_y x \times y \times p_x(x) \times p_y(y) \notag \ & = &\sum_x{x \times p_x(x)}\sum_y{y \times p_y(y)} \notag \ & = &E(X)E(Y) \notag \end{eqnarray}

利用協方差的另壹個公式: Cov(X,Y)=E(X,Y)-E(X)E(Y) ,可以推出,當 X, Y 相互獨立時, Cov(X, Y)=0 。

這時,協方差矩陣就變成壹個對角矩陣了: Cov(Z)=\begin{bmatrix} Cov(X,X) & 0\\ 0 & Cov(Y,Y) \end{bmatrix}

雖然我們已經知道協方差矩陣的計算方法了,但還有壹個更重要的問題:協方差矩陣有什麽作用?作為壹種數學工具,協方差矩陣經常被用來計算特征之間的某種聯系。

在機器學習的論文中,協方差矩陣的出現概率還是很高的,用於降維的主成分分析法(PCA)就用到了協方差矩陣。另外,由於協方差矩陣是壹個對稱矩陣,因此它包含了很多很有用的性質,這也導致它受青睞的程度較高。

  • 上一篇:張萌因沒看實習生被指沒禮貌上熱搜,妳覺得綜藝《初入職場的我們》如何?
  • 下一篇:2015年什麽時候日食什麽時候月食
  • copyright 2024編程學習大全網