當前位置:編程學習大全網 - 熱門推薦 - 急用!!!數據挖掘的六種常用算法和技術分別是什麽

急用!!!數據挖掘的六種常用算法和技術分別是什麽

數據挖掘技術和算法技術:概念方法

算法:壹步壹步具體實現的細節

不同的目標要調用不同的技術

 數據挖掘根據其目標分為說明性(Prescriptive)和描述性 (Descriptive)數據挖掘兩種

 不同的Data Type調用不同技術

三種數據挖掘技術

 自動聚集檢測;決策樹;神經網絡

原因: 大量的商業軟件應用

覆蓋了數據挖掘壹個較廣的範圍

 直接數據挖掘目標是預言,估值,分類,預定義目標變量的特征行為

神經元網絡;決策樹

 間接數據挖掘:沒有目標變量被預言,目的是發現整個數據集的結構

聚集檢測

自動聚集檢測

 方法

K-均值是講整個數據集分為K個聚集的算法。

 K-均值聚集檢測如何工作

隨機選取K個記錄,作為種子節點;

對剩余的記錄集合,計算每個記錄與K個種子節點的距離,將每個記錄歸到最近的那個種子節點,這樣整個記錄集初次劃分為K個聚集;

對每個聚集,計算聚集的質心(聚集中心點);

以每個質心為種子節點,重復上述步驟,直至聚集不再改變。

 Consequences of Choosing Clustering

選擇距離函數

選擇合適的聚集數

 對聚集的解釋

構造決策樹

可視化看聚集如何受輸入變量的影響

單變量測試

 什麽時候使用聚集檢測

決策樹

 決策樹分類

決策樹分為分類樹和回歸樹兩種,分類樹對離散變量做決策樹,回歸樹對連續變量做決策樹。

壹般的數據挖掘工具,允許選擇分裂條件和修剪規則,以及控制參數(最小節點的大小,最大樹的深度等等),來限制決策樹的overfitting。

 決策樹如何工作

決策樹是壹棵樹,樹的根節點是整個數據集合空間,每個分節點是對壹個單壹變量的測試,該測試將數據集合空間分割成兩個或更多塊。每個葉節點是屬於單壹類別的記錄。

首先,通過訓練集生成決策樹,再通過測試集對決策樹進行修剪。決策樹的功能是預言壹個新的記錄屬於哪壹類。

 決策樹如何構建

通過遞歸分割的過程構建決策樹。

尋找初始分裂

整個訓練集作為產生決策樹的集合,訓練集每個記錄必須是已經分好類的。

決定哪個屬性(Field)域作為目前最好的分類指標。壹般的做法是窮盡所有的屬性域,對每個屬性域分裂的好壞做出量化,計算出最好的壹個分裂。量化的標準是計算每個分裂的多樣性(diversity)指標GINI指標。

樹增長到壹棵完整的樹

重復第壹步,直至每個葉節點內的記錄都屬於同壹類。

數據的修剪

 選擇決策樹的結果

處理輸入變量

樹和規則

選擇最好的屬性的能力

 什麽時候使用決策樹

神經網絡

神經元模型

生物模型

人工神經元

神經網模型

網的拓撲結構:層次(前饋,反饋);全連通

學習方法:有教員的(出入均知道);無教員的(輸出不知道)

運行機制:同步;異步

神經網絡的基本特點

大量簡單節點的復雜連接;高度並行處理;分布式存儲,信息存在整個網中,用權值體現出來,有聯想能力,可以從壹個不完整的信息恢復出完整信息;自組織、自學習。

六種常用於模式識別的神經網絡分類器

Hopfield Net

Harmming Net

Carpenter/Grossberg 分類器

單層感知網

多層感知網

Kohonen的自組織特性圖

  • 上一篇:藤椅主要產地是哪裏藤椅主要產地在什麽地方
  • 下一篇:網絡借貸信息中介機構業務活動管理辦法還可以用嗎
  • copyright 2024編程學習大全網