聚類分析的概念主要是來自多元統計分析,例如,考慮二維坐標系上有散落的許多點,這時,需要對散點進行合理的分類,就需要聚類方面的知識。模糊聚類分析方法主要針對的是這樣的問題:對於樣本空間P中的元素含有多個屬性,要求對其中的元素進行合理的分類。最終可以以聚類圖的形式加以呈現,而聚類圖可以以手式和自動生成兩種方式進行,這裏采用自動生成方式,亦是本文的程序實現過程中的壹個關鍵環節。
這裏所實現的基本的模糊聚類的主要過程是壹些成文的方法,在此簡述如下:
對於待分類的壹個樣本集U=,設其中的每個元素有m項指標,則可以用m維向量描述樣本,即:ui=(i=1,2,...,n)。則其相應的模糊聚類按下列步驟進行:1)
標準化處理,將數據壓縮至(0-1)區間上,這部分內容相對簡單,介紹略。(參[1])2)
建立模糊關系:這裏比較重要的環節之壹,首先是根據“距離”或其它進行比較的觀點及方法建立模糊相似矩陣,主要的“距離”有:Hamming
距離:
d(i,j)=sum(abs(x(i,k)-x(j,k)))
|
k
from
1
to
m
(|
k
from
1
to
m表示求和式中的系數k由1增至m,下同)Euclid
距離:
d(i,j)=sum((x(i,k)-x(j,k))^2)
|
k
from
1
to
m
非距離方法中,最經典的就是壹個夾角余弦法:
最終進