數據知識發現(KDD),是自動或方便地提取模式,表示在大型數據庫,數據倉庫,Web,其他海量信息庫或數據流中隱式存儲或捕獲的知識。知識發現是從各種信息中,根據不同的需求獲得知識的過程。知識發現的目的是向使用者屏蔽原始數據的繁瑣細節,從原始數據中提煉出有效的、新穎的、潛在有用的知識,直接向使用者報告。
KDD的基本任務
1、數據分類
分類是數據挖掘研究的重要分支之壹,是壹種有效的數據分析方法。分類的目標是通過分析訓練數據集,構造壹個分類模型(即分類器),該模型能夠把數據庫中的數據記錄映射到壹個給定的類別,從而可以l立用於數據預測。
2、數據聚類
當要分析的數據缺乏必要的描述信息,或者根本就無法組織成任何分類模式時,利用聚類函數把壹組個體按照相似性歸成若幹類,這樣就可以自動找到類。聚類和分類類似,都是將數據進行分組。但與分類不同的是,聚類中的組不是預先定義的,而是根據實際數據的特征按照數據之間的相似性來定義的。