用於數據挖掘的聚類算法有哪些，各有何優勢

1、層次聚類算法

1.1聚合聚類

1.1.1相似度依據距離不同：Single-Link:最近距離、Complete-Link：最遠距離、Average-Link：平均距離

1.1.2最具代表性算法

1）CURE算法

特點：固定數目有代表性的點***同代表類

優點：識別形狀復雜，大小不壹的聚類，過濾孤立點

2）ROCK算法

特點：對CURE算法的改進

優點：同上，並適用於類別屬性的數據

3）CHAMELEON算法

特點：利用了動態建模技術

1.2分解聚類

1.3優缺點

優點：適用於任意形狀和任意屬性的數據集；靈活控制不同層次的聚類粒度，強聚類能力

缺點：大大延長了算法的執行時間，不能回溯處理

2、分割聚類算法

2.1基於密度的聚類

2.1.1特點

將密度足夠大的相鄰區域連接，能有效處理異常數據，主要用於對空間數據的聚類

2.1.2典型算法

1）DBSCAN：不斷生長足夠高密度的區域

2）DENCLUE：根據數據點在屬性空間中的密度進行聚類，密度和網格與處理的結合

3）OPTICS、DBCLASD、CURD：均針對數據在空間中呈現的不同密度分不對DBSCAN作了改進

2.2基於網格的聚類

2.2.1特點

利用屬性空間的多維網格數據結構，將空間劃分為有限數目的單元以構成網格結構；

1）優點：處理時間與數據對象的數目無關，與數據的輸入順序無關，可以處理任意類型的數據

2）缺點：處理時間與每維空間所劃分的單元數相關，壹定程度上降低了聚類的質量和準確性

2.2.2典型算法

1）STING：基於網格多分辨率，將空間劃分為方形單元，對應不同分辨率

2）STING+：改進STING，用於處理動態進化的空間數據

3）CLIQUE：結合網格和密度聚類的思想，能處理大規模高維度數據

4）WaveCluster：以信號處理思想為基礎

2.3基於圖論的聚類

2.3.1特點

轉換為組合優化問題，並利用圖論和相關啟發式算法來解決，構造數據集的最小生成數，再逐步刪除最長邊

1）優點：不需要進行相似度的計算

2.3.2兩個主要的應用形式

1）基於超圖的劃分

2）基於光譜的圖劃分

2.4基於平方誤差的叠代重分配聚類

2.4.1思想

逐步對聚類結果進行優化、不斷將目標數據集向各個聚類中心進行重新分配以獲最優解

2.4.2具體算法

1）概率聚類算法

期望最大化、能夠處理異構數據、能夠處理具有復雜結構的記錄、能夠連續處理成批的數據、具有在線處理能力、產生的聚類結果易於解釋

2）最近鄰聚類算法——***享最近鄰算法SNN

特點：結合基於密度方法和ROCK思想，保留K最近鄰簡化相似矩陣和個數

不足：時間復雜度提高到了O(N^2)

3）K-Medioids算法

特點：用類中的某個點來代表該聚類

優點：能處理任意類型的屬性；對異常數據不敏感

4）K-Means算法

1》特點：聚類中心用各類別中所有數據的平均值表示

2》原始K-Means算法的缺陷：結果好壞依賴於對初始聚類中心的選擇、容易陷入局部最優解、對K值的選擇沒有準則可依循、對異常數據較為敏感、只能處理數值屬性的數據、聚類結構可能不平衡

3》K-Means的變體

Bradley和Fayyad等：降低對中心的依賴，能適用於大規模數據集

Dhillon等：調整叠代過程中重新計算中心方法，提高性能

Zhang等：權值軟分配調整叠代優化過程

Sarafis：將遺傳算法應用於目標函數構建中

Berkh in等：應用擴展到了分布式聚類

還有：采用圖論的劃分思想，平衡聚類結果，將原始算法中的目標函數對應於壹個各向同性的高斯混合模型

5）優缺點

優點：應用最為廣泛；收斂速度快；能擴展以用於大規模的數據集

缺點：傾向於識別凸形分布、大小相近、密度相近的聚類；中心選擇和噪聲聚類對結果影響大

3、基於約束的聚類算法

3.1約束

對個體對象的約束、對聚類參數的約束；均來自相關領域的經驗知識

3.2重要應用

對存在障礙數據的二維空間按數據進行聚類,如COD(Clustering with Obstructed Distance)：用兩點之間的障礙距離取代了壹般的歐式距離

3.3不足

通常只能處理特定應用領域中的特定需求

4、用於高維數據的聚類算法

4.1困難來源因素

1）無關屬性的出現使數據失去了聚類的趨勢

2)區分界限變得模糊

4.2解決方法

1)對原始數據降維

2)子空間聚類

CACTUS：對原始空間在二維平面上的投影

CLIQUE：結合基於密度和網格的聚類思想，借鑒Apriori算法

3)聯合聚類技術

特點：對數據點和屬性同時進行聚類

文本：基於雙向劃分圖及其最小分割的代數學方法

4.3不足：不可避免地帶來了原始數據信息的損失和聚類準確性的降低

上一篇:計算機平臺種類?比如我知道的有windows何linux，還有？

下一篇:求個軟件

誰能幫我解釋壹下這個01背包問題的VB代碼？

詳細述說ADO超時相關問題介紹

如果沒什麽編程經驗進公司怎樣