DBSCAN聚類算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪聲的基於密度的聚類方法)是壹種很典型的密度聚類算法，和K-Means，BIRCH這些壹般只適用於凸樣本集的聚類相比，DBSCAN既可以適用於凸樣本集，也可以適用於非凸樣本集。DBSCAN算法的顯著優點是聚類速度快且能夠有效處理噪聲點和發現任意形狀的空間聚類。

該算法利用基於密度的聚類的概念，即要求聚類空間中的壹定區域內所包含對象（點或其他空間對象）的數目不小於某壹給定閾值。過濾低密度區域，發現稠密度樣本點。同壹類別的樣本，他們之間的緊密相連的，也就是說，在該類別任意樣本周圍不遠處壹定有同類別的樣本存在。

DBSCAN密度定義：DBSCAN是基於壹組鄰域來描述樣本集的緊密程度的，參數? (?, MinPts)? 用來描述鄰域的樣本分布緊密程度。其中， ? 描述了某壹樣本的鄰域距離閾值， MinPts? 描述了某壹樣本的距離為?的鄰域中樣本個數的閾值。

從上圖可以很容易看出理解上述定義，圖中MinPts=5，紅色的點都是核心對象，因為其?-鄰域至少有5個樣本。黑色的樣本是非核心對象。所有核心對象密度直達的樣本在以紅色核心對象為中心的超球體內，如果不在超球體內，則不能密度直達。圖中用綠色箭頭連起來的核心對象組成了密度可達的樣本序列。在這些密度可達的樣本序列的?-鄰域內所有的樣本相互都是密度相連的。

由密度可達關系導出的最大密度相連的樣本集合，即為我們最終聚類的壹個類別，或者說壹個簇。這個DBSCAN的簇裏面可以有壹個或者多個核心對象。如果只有壹個核心對象，則簇裏其他的非核心對象樣本都在這個核心對象的?-鄰域裏；如果有多個核心對象，則簇裏的任意壹個核心對象的?-鄰域中壹定有壹個其他的核心對象，否則這兩個核心對象無法密度可達。這些核心對象的?-鄰域裏所有的樣本的集合組成的壹個DBSCAN聚類簇。

1、DBSCAN發現簇的過程

?初始，給定數據集D中所有對象都被標記為“unvisited”，DBSCAN隨機選擇壹個未訪問的對象p，標記p為“visited”，並檢查p的 ?- 領域是否至少包含MinPts個對象。如果不是，則p被標記為噪聲點。否則為p創建壹個新的簇C，並且把p的 ?- 領域中所有對象都放在候選集合N中。DBSCAN叠代地把N中不屬於其他簇的對象添加到C中。在此過程中，對應N中標記為“unvisited”的對象 P'?,DBSCAN把它標記為“visited”，並且檢查它的 ?- 領域，如果 P' 的 ?- 領域至少包含MinPts個對象，則P' 的 ?- 領域中的對象都被添加到N中。DBSCAN繼續添加對象到C，直到C不能擴展，即直到N為空。此時簇C完成生成，輸出。

?為了找到下壹個簇，DBSCAN從剩下的對象中隨機選擇壹個未訪問過的對象。聚類過程繼續，直到所有對象都被訪問。

還需考慮三個問題：

第壹個是壹些異常樣本點或者說少量遊離於簇外的樣本點，這些點不在任何壹個核心對象在周圍，在DBSCAN中，我們壹般將這些樣本點標記為噪音點。DBSCAN算法很容易檢測異常點。

第二個是距離的度量問題，即如何計算某樣本和核心對象樣本的距離。在DBSCAN中，壹般采用最近鄰思想，采用某壹種距離度量來衡量樣本距離，比如歐式距離。這和KNN分類算法的最近鄰思想完全相同。對應少量的樣本，尋找最近鄰可以直接去計算所有樣本的距離，如果樣本量較大，則壹般采用KD樹或者球樹來快速的搜索最近鄰。

第三種問題，某些樣本可能到兩個核心對象的距離都小於?，但是這兩個核心對象由於不是密度直達，又不屬於同壹個聚類簇，那麽如果界定這個樣本的類別呢？壹般來說，此時DBSCAN采用先來後到，先進行聚類的類別簇會標記這個樣本為它的類別。也就是說BDSCAN的算法不是完全穩定的算法。

2、DBSCAN算法流程

優點：

和傳統的K-Means算法相比，DBSCAN最大的不同就是不需要輸入類別數k，當然它最大的優勢是可以發現任意形狀的聚類簇，而不是像K-Means，壹般僅僅使用於凸的樣本集聚類。同時它在聚類的同時還可以找出異常點，對數據集中的異常點不敏感。壹般來說，如果數據集是稠密的，並且數據集不是凸的，那麽用DBSCAN會比K-Means聚類效果好很多。如果數據集不是稠密的，則不推薦用DBSCAN來聚類。

缺點：

1、如果樣本集的密度不均勻、聚類間距差相差很大時，聚類質量較差，這時用DBSCAN聚類壹般不適合。

2、調參相對於傳統的K-Means之類的聚類算法稍復雜，主要需要對距離閾值?，鄰域樣本數閾值MinPts聯合調參，不同的參數組合對最後的聚類效果有較大影響。壹般這兩個參數的確定靠經驗值。如果覺得經驗值聚類的結果不滿意，可以適當調整?和MinPts的值，經過多次叠代計算對比，選擇最合適的參數值。如果MinPts不變，?取得值過大，會導致大多數點都聚到同壹個簇中，?過小，會導致壹個簇的分裂；如果?不變，MinPts的值取得過大，會導致同壹個簇中點被標記為離群點，?過小，會導致發現大量的核心點。

3、不適合高維數據，可以先進行降維操作

4、Sklearn中效率很慢，可以先執行數據削減策略

可視化演示的網址

參考文章

劉建平

上一篇:源代碼指數選股

下一篇:百度為什麽慢慢播《寶藏四川》？

python用於web開發的第三方庫有哪些

如何正確理解Docker生態

用標準c讀取bmp文件的長寬？

java培訓都講什麽東西(開壹個java培訓班都需要什麽)

如何給Win7安裝鏡像註入usb3.0和nvme驅動

選股公式的編寫

C語言兩題小小編寫題緊急求解！高分即刻送高手