當前位置:編程學習大全網 - 圖片素材 - 緊急求助!!!!!!!!!!!!!!!!!!"類聚"是什麽?

緊急求助!!!!!!!!!!!!!!!!!!"類聚"是什麽?

壹,什麽是聚類?

聚類:-將壹個對象的集合分割成幾個類,每個類內的對象之間是相似的,但與其他類的對象是不相似的。

評判聚類好壞的標準:1,能夠適用於大數據量。2,能應付不同的數據類型。3,能夠發現不同類型的聚類。4,使對專業知識的要求降到最低。5,能應付臟數據。6,對於數據不同的順序不敏感。7,能應付很多類型的數據。8,模型可解釋,可使用。

二,聚類所基於的數據類型。

聚類算法通常基於“數據矩陣”和“Dissimilarity 矩陣”。

怎麽樣計算不同對象之間的距離?

1,數值連續的變量(體重,身高等):度量單位的選取對於聚類的結果的很重要的。例如將身高的單位從米變為尺,將體重的單位從公斤變為磅將對聚類的結果產生很大的影響。為了避免出現這種情況,我們必須將數據標準化:將數據中的單位“去掉”。

A, 計算絕對背離度。B,計算標準量度。

下面我們考慮怎樣來計算兩個對象之間的差異。1,歐幾裏得距離。2,曼哈頓距離。這兩種算法有***同之處:d(i,j)>=0,d(i,i)=0, d(i,j)=d(j,i),d(i,j)=<d(i,h)+d(h,j)。3,Minkowski距離。這是上述兩種算法的通式。並且對於不同的變量,我們可以給它賦於不同的weight.

2,二元數據變量:如果還是用上面的方法來計算的話,肯定會出現錯誤。這兒分

兩種情況,對稱的與非對稱的。

3,Nominal變量:(例如紅,黃,綠,藍….)

4,ordinal變量(例如科長,處長,局長….)

5,ratio-scaled變量:

6,以上幾種混合的變量(多數情況是這樣的):

三,分割的的方法。

1, K均值算法:給定類的個數K,將n個對象分到K個類中去,使得類內對象之間的相似性最大,而類之間的相似性最小。

缺點:產生類的大小相差不會很大,對於臟數據很敏感。

改進的算法:k—medoids 方法。這兒選取壹個對象叫做mediod來代替上面的中心

的作用,這樣的壹個medoid就標識了這個類。步驟:

1,任意選取K個對象作為medoids(O1,O2,…Oi…Ok)。

以下是循環的:

2,將余下的對象分到各個類中去(根據與medoid最相近的原則);

3,對於每個類(Oi)中,順序選取壹個Or,計算用Or代替Oi後的消耗—E(Or)。選擇E最小的那個Or來代替Oi。這樣K個medoids就改變了,下面就再轉到2。

4,這樣循環直到K個medoids固定下來。

這種算法對於臟數據和異常數據不敏感,但計算量顯然要比K均值要大,壹般只適合小數據量。

  • 上一篇:心動外賣推廣員怎麽加入
  • 下一篇:新生兒起名字女孩
  • copyright 2024編程學習大全網