急用！！！數據挖掘的六種常用算法和技術分別是什麽

數據挖掘技術和算法技術：概念方法

算法：壹步壹步具體實現的細節

不同的目標要調用不同的技術

　數據挖掘根據其目標分為說明性（Prescriptive）和描述性 (Descriptive)數據挖掘兩種

　不同的Data Type調用不同技術

三種數據挖掘技術

　自動聚集檢測；決策樹；神經網絡

原因：大量的商業軟件應用

覆蓋了數據挖掘壹個較廣的範圍

　直接數據挖掘目標是預言，估值，分類，預定義目標變量的特征行為

神經元網絡；決策樹

　間接數據挖掘：沒有目標變量被預言，目的是發現整個數據集的結構

聚集檢測

自動聚集檢測

　方法

K-均值是講整個數據集分為K個聚集的算法。

　K-均值聚集檢測如何工作

隨機選取K個記錄，作為種子節點；

對剩余的記錄集合，計算每個記錄與K個種子節點的距離，將每個記錄歸到最近的那個種子節點，這樣整個記錄集初次劃分為K個聚集；

對每個聚集，計算聚集的質心（聚集中心點）；

以每個質心為種子節點，重復上述步驟，直至聚集不再改變。

　Consequences of Choosing Clustering

選擇距離函數

選擇合適的聚集數

　對聚集的解釋

構造決策樹

可視化看聚集如何受輸入變量的影響

單變量測試

　什麽時候使用聚集檢測

決策樹

　決策樹分類

決策樹分為分類樹和回歸樹兩種，分類樹對離散變量做決策樹，回歸樹對連續變量做決策樹。

壹般的數據挖掘工具，允許選擇分裂條件和修剪規則，以及控制參數（最小節點的大小，最大樹的深度等等），來限制決策樹的overfitting。

　決策樹如何工作

決策樹是壹棵樹，樹的根節點是整個數據集合空間，每個分節點是對壹個單壹變量的測試，該測試將數據集合空間分割成兩個或更多塊。每個葉節點是屬於單壹類別的記錄。

首先，通過訓練集生成決策樹，再通過測試集對決策樹進行修剪。決策樹的功能是預言壹個新的記錄屬於哪壹類。

　決策樹如何構建

通過遞歸分割的過程構建決策樹。

尋找初始分裂

整個訓練集作為產生決策樹的集合，訓練集每個記錄必須是已經分好類的。

決定哪個屬性（Field）域作為目前最好的分類指標。壹般的做法是窮盡所有的屬性域，對每個屬性域分裂的好壞做出量化，計算出最好的壹個分裂。量化的標準是計算每個分裂的多樣性（diversity）指標GINI指標。

樹增長到壹棵完整的樹

重復第壹步，直至每個葉節點內的記錄都屬於同壹類。

數據的修剪

　選擇決策樹的結果

處理輸入變量

樹和規則

選擇最好的屬性的能力

　什麽時候使用決策樹

神經網絡

神經元模型

生物模型

人工神經元

神經網模型

網的拓撲結構：層次（前饋，反饋）；全連通

學習方法：有教員的（出入均知道）；無教員的（輸出不知道）

運行機制：同步；異步

神經網絡的基本特點

大量簡單節點的復雜連接；高度並行處理；分布式存儲，信息存在整個網中，用權值體現出來，有聯想能力，可以從壹個不完整的信息恢復出完整信息；自組織、自學習。

六種常用於模式識別的神經網絡分類器

Hopfield Net

Harmming Net

Carpenter/Grossberg 分類器

單層感知網

多層感知網

Kohonen的自組織特性圖

上一篇:藤椅主要產地是哪裏藤椅主要產地在什麽地方

下一篇:網絡借貸信息中介機構業務活動管理辦法還可以用嗎