1.1聚合聚類
1.1.1相似度依據距離不同:Single-Link:最近距離、Complete-Link:最遠距離、Average-Link:平均距離
1.1.2最具代表性算法
1)CURE算法
特點:固定數目有代表性的點***同代表類
優點:識別形狀復雜,大小不壹的聚類,過濾孤立點
2)ROCK算法
特點:對CURE算法的改進
優點:同上,並適用於類別屬性的數據
3)CHAMELEON算法
特點:利用了動態建模技術
1.2分解聚類
1.3優缺點
優點:適用於任意形狀和任意屬性的數據集;靈活控制不同層次的聚類粒度,強聚類能力
缺點:大大延長了算法的執行時間,不能回溯處理
2、分割聚類算法
2.1基於密度的聚類
2.1.1特點
將密度足夠大的相鄰區域連接,能有效處理異常數據,主要用於對空間數據的聚類
2.1.2典型算法
1)DBSCAN:不斷生長足夠高密度的區域
2)DENCLUE:根據數據點在屬性空間中的密度進行聚類,密度和網格與處理的結合
3)OPTICS、DBCLASD、CURD:均針對數據在空間中呈現的不同密度分不對DBSCAN作了改進
2.2基於網格的聚類
2.2.1特點
利用屬性空間的多維網格數據結構,將空間劃分為有限數目的單元以構成網格結構;
1)優點:處理時間與數據對象的數目無關,與數據的輸入順序無關,可以處理任意類型的數據
2)缺點:處理時間與每維空間所劃分的單元數相關,壹定程度上降低了聚類的質量和準確性
2.2.2典型算法
1)STING:基於網格多分辨率,將空間劃分為方形單元,對應不同分辨率
2)STING+:改進STING,用於處理動態進化的空間數據
3)CLIQUE:結合網格和密度聚類的思想,能處理大規模高維度數據
4)WaveCluster:以信號處理思想為基礎
2.3基於圖論的聚類
2.3.1特點
轉換為組合優化問題,並利用圖論和相關啟發式算法來解決,構造數據集的最小生成數,再逐步刪除最長邊
1)優點:不需要進行相似度的計算
2.3.2兩個主要的應用形式
1)基於超圖的劃分
2)基於光譜的圖劃分
2.4基於平方誤差的叠代重分配聚類
2.4.1思想
逐步對聚類結果進行優化、不斷將目標數據集向各個聚類中心進行重新分配以獲最優解
2.4.2具體算法
1)概率聚類算法
期望最大化、能夠處理異構數據、能夠處理具有復雜結構的記錄、能夠連續處理成批的數據、具有在線處理能力、產生的聚類結果易於解釋
2)最近鄰聚類算法——***享最近鄰算法SNN
特點:結合基於密度方法和ROCK思想,保留K最近鄰簡化相似矩陣和個數
不足:時間復雜度提高到了O(N^2)
3)K-Medioids算法
特點:用類中的某個點來代表該聚類
優點:能處理任意類型的屬性;對異常數據不敏感
4)K-Means算法
1》特點:聚類中心用各類別中所有數據的平均值表示
2》原始K-Means算法的缺陷:結果好壞依賴於對初始聚類中心的選擇、容易陷入局部最優解、對K值的選擇沒有準則可依循、對異常數據較為敏感、只能處理數值屬性的數據、聚類結構可能不平衡
3》K-Means的變體
Bradley和Fayyad等:降低對中心的依賴,能適用於大規模數據集
Dhillon等:調整叠代過程中重新計算中心方法,提高性能
Zhang等:權值軟分配調整叠代優化過程
Sarafis:將遺傳算法應用於目標函數構建中
Berkh in等:應用擴展到了分布式聚類
還有:采用圖論的劃分思想,平衡聚類結果,將原始算法中的目標函數對應於壹個各向同性的高斯混合模型
5)優缺點
優點:應用最為廣泛;收斂速度快;能擴展以用於大規模的數據集
缺點:傾向於識別凸形分布、大小相近、密度相近的聚類;中心選擇和噪聲聚類對結果影響大
3、基於約束的聚類算法
3.1約束
對個體對象的約束、對聚類參數的約束;均來自相關領域的經驗知識
3.2重要應用
對存在障礙數據的二維空間按數據進行聚類,如COD(Clustering with Obstructed Distance):用兩點之間的障礙距離取代了壹般的歐式距離
3.3不足
通常只能處理特定應用領域中的特定需求
4、用於高維數據的聚類算法
4.1困難來源因素
1)無關屬性的出現使數據失去了聚類的趨勢
2)區分界限變得模糊
4.2解決方法
1)對原始數據降維
2)子空間聚類
CACTUS:對原始空間在二維平面上的投影
CLIQUE:結合基於密度和網格的聚類思想,借鑒Apriori算法
3)聯合聚類技術
特點:對數據點和屬性同時進行聚類
文本:基於雙向劃分圖及其最小分割的代數學方法
4.3不足:不可避免地帶來了原始數據信息的損失和聚類準確性的降低