判別分析的特點是根據已掌握的、歷史上每個類別的若幹樣本的數據信息,總結出客觀事物分類的規律性,建立判別公式和判別準則。
判別分析和聚類分析都是要求對樣本進行分類,但兩者的分析內容和要求是不壹樣的。 聚類分析 是給定數量的樣品,但樣品應劃分出怎樣的類別還不清楚,需要聚類分析來判別。 判別分析 是已知樣品應分為怎樣的類別,判斷每壹個樣品應屬於怎樣的類別。
距離判別是以給定樣品與各總體之間的距離的計算值為準則進行類別判斷的壹種方法。由於馬氏距離不受量綱的影響,因此,在距離判別法中,也采用馬氏距離作為類別判斷的依據。
(1)若ω(x)>0 則x屬於G?
(2)若ω(x)<0 則x屬於G?
(3)若ω(x)=0 則待判
其中,ω(x)為x的線性函數:(推導過程略)
故常稱ω(x)為線性判別函數
協方差陣相同時:
判別函數為:
相應的判別規則為:
協方差陣不同時:
判別函數為:
相應的判別規則為:
該法是按照類內方差盡量小,類間方差盡量大的準則來要求判別函數。組與組的分開借用了方差分析的思想。
從兩個總體中抽取p個指標的樣品觀測數據,根據方差分析的思想構造壹個判別函數:
其中系數確定的原則是使兩組間的區別最大,而使每個組內部的離差最小。
有了判別式以後,對於壹個新的樣品,將它的p個指標帶入判別函數中求出y值。然後與判別臨界值進行比較,就可以判斷它屬於哪壹個總體。
分析過程:
設有k個總體G?,G?,…,Gk,從中抽取的樣品數為n?,n?,…,nk,令n=n?+n?+…+nk。設判別函數為:
其中,
在多總體情況下繼續選取系數向量c即可。
註:壹般來說,對經驗樣品回判率大於80%就可以使用Fisher判別。
貝葉斯判別的基本思想是認為所有G個類別都是空間中 互斥 的子域,每個觀測都是空間中的壹個點。
在考慮先驗概率的前提下,利用Bayes公式按照壹定的準則構建壹個判別函數,分別計算該樣品落入各個子域的概率,所有概率中最大的壹類就被認為是樣品所屬的類別。
Bayes判別的數學推導略,其數學模型的建立可參考:[百度文庫](/view/37949474a8114431b80dd803.html),P5-P14
但在Bayes判斷規則之前,設
有必要進行統計檢驗H?:μ?=μ?=…=μk。當H?被接受,說明k個總體是壹樣的,也就沒有必要建立判別函數;
若H?被拒絕,就需要檢驗每兩個總體之間差異的顯著性,重復操作。
逐步判別的思想類似於逐步回歸。變量按照其重要性逐步引入,已經引入的變量也可能因為新的變量而被剔除。每次引入或剔除變量都進行相應的統計檢驗。
利用 威爾克斯統計量 對變量的重要性進行區分:
其中Λ(X ,Xj)表示X 與Xj的威爾克斯檢驗統計量,Λ=組內離差平方和/樣本點總離差平方和。
步驟:分析->分類->判別,選入變量,如下圖:
定義分組變量範圍,如下圖:
點擊 Statistics 按鈕,選擇如下圖:
單擊 分類 按鈕,如下圖:
單擊 Save 按鈕,選項如下圖:
主要輸出結果:
右圖是貝葉斯判別函數系數表,將樣品的各參數帶入2個貝葉斯判別函數,比較得出的函數值,哪個函數值較大就將該樣品歸於哪壹類。
以及最後的樣品判別結果見下表:
可以直接讀出預測組的分類為第2類。