緊急求助!!!!!!!!!!!!!!!!!!"類聚"是什麽?

壹，什麽是聚類？

聚類：-將壹個對象的集合分割成幾個類，每個類內的對象之間是相似的，但與其他類的對象是不相似的。

評判聚類好壞的標準：1，能夠適用於大數據量。2，能應付不同的數據類型。3，能夠發現不同類型的聚類。4，使對專業知識的要求降到最低。5，能應付臟數據。6，對於數據不同的順序不敏感。7，能應付很多類型的數據。8，模型可解釋，可使用。

二，聚類所基於的數據類型。

聚類算法通常基於“數據矩陣”和“Dissimilarity 矩陣”。

怎麽樣計算不同對象之間的距離？

1，數值連續的變量（體重，身高等）：度量單位的選取對於聚類的結果的很重要的。例如將身高的單位從米變為尺，將體重的單位從公斤變為磅將對聚類的結果產生很大的影響。為了避免出現這種情況，我們必須將數據標準化：將數據中的單位“去掉”。

A, 計算絕對背離度。B,計算標準量度。

下面我們考慮怎樣來計算兩個對象之間的差異。1，歐幾裏得距離。2，曼哈頓距離。這兩種算法有***同之處：d(i,j)>=0,d(i,i)=0, d(i,j)=d(j,i),d(i,j)=<d(i,h)+d(h,j)。3，Minkowski距離。這是上述兩種算法的通式。並且對於不同的變量，我們可以給它賦於不同的weight.

2，二元數據變量：如果還是用上面的方法來計算的話，肯定會出現錯誤。這兒分

兩種情況，對稱的與非對稱的。

3，Nominal變量：(例如紅，黃，綠，藍….)

4，ordinal變量（例如科長，處長，局長….）

5，ratio-scaled變量：

6,以上幾種混合的變量（多數情況是這樣的）：

三，分割的的方法。

1， K均值算法：給定類的個數K，將n個對象分到K個類中去，使得類內對象之間的相似性最大，而類之間的相似性最小。

缺點：產生類的大小相差不會很大，對於臟數據很敏感。

改進的算法：k—medoids 方法。這兒選取壹個對象叫做mediod來代替上面的中心

的作用，這樣的壹個medoid就標識了這個類。步驟：

1，任意選取K個對象作為medoids（O1,O2,…Oi…Ok）。