當前位置:編程學習大全網 - 腳本源碼 - 與挖掘少量數據相比,挖掘海量數據的主要挑戰是什麽?

與挖掘少量數據相比,挖掘海量數據的主要挑戰是什麽?

下面是壹些特定的挑戰,它們引發了對數據挖掘的研究。

可伸縮 由於數據產生和收集技術的進步,數吉字節、數太字節甚至數拍字節的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的(scalable)。許多數據挖掘算法使用特殊的搜索策略處理指數性搜索問題。可伸縮可能還需要實現新的數據結構,以有效的方式訪問個別記錄。例如,當要處理的數據不能放進內存時,可能需要非內存算法。使用抽樣技術或開發並行和分布算法也可以提高可伸縮程度。

高維性 現在,常常遇到具有數以百計或數以千計屬性的數據集,而不是數十年前常見的只具有少量屬性的數據集。在生物信息學領域,微陣列技術的進步已經產生了涉及數千特征的基因表達數據。具有時間或空間分量的數據集也趨向於具有很高的維度。例如,考慮包含不同地區的溫度測量的數據集。如果溫度在壹個相當長的時間周期內重復地測量,則維度(特征數)的增長正比於測量的次數。為低維數據開發的傳統的數據分析技術通常不能很好地處理這樣的高維數據。此外,對於某些數據分析算法,隨著維度(特征數)的增加,計算復雜性迅速增加。

異種數據和復雜數據 通常,傳統的數據分析方法只處理包含相同類型屬性的數據集,或者是連續的,或者是分類的。隨著數據挖掘在商務、科學、醫學和其他領域的作用越來越大,越來越需要能夠處理異種屬性的技術。近年來,已經出現了更復雜的數據對象。這些非傳統的數據類型的例子包括含有半結構化文本和超鏈接的Web頁面集、具有序列和三維結構的DNA數據、包含地球表面不同位置上的時間序列測量值(溫度、氣壓等)的氣象數據。為挖掘這種復雜對象而開發的技術應當考慮數據中的聯系,如時間和空間的自相關性、圖的連通性、半結構化文本和XML文檔中元素之間的父子聯系。

數據的所有權與分布 有時,需要分析的數據並非存放在壹個站點,或歸屬壹個單位,而是地理上分布在屬於多個機構的資源中。這就需要開發分布式數據挖掘技術。分布式數據挖掘算法面臨的主要挑戰包括:(1) 如何降低執行分布式計算所需的通信量?(2) 如何有效地統壹從多個資源得到的數據挖掘結果?(3) 如何處理數據安全性問題?

非傳統的分析 傳統的統計方法基於壹種假設—檢驗模式。換句話說,提出壹種假設,設計實驗來收集數據,然後針對假設分析數據。但是,這壹過程勞力費神。當前的數據分析任務常常需要產生和評估數以千計的假設,因此希望自動地產生和評估假設導致了壹些數據挖掘技術的開發。此外,數據挖掘所分析的數據集通常不是精心設計的實驗的結果,並且它們通常代表數據的時機性樣本(opportunistic sample),而不是隨機樣本(random sample)。而且,這些數據集常常涉及非傳統的數據類型和數據分布。

通常,數據挖掘任務分為下面兩大類:

l 預測任務。這些任務的目標是根據其他屬性的值,預測特定屬性的值。被預測的屬性壹般稱目標變量(target variable)或因變量(dependent variable),而用來做預測的屬性稱說明變量(explanatory variable)或自變量(independent variable)。

l 描述任務。這裏,目標是導出概括數據中潛在聯系的模式(相關、趨勢、聚類、軌跡和異常)。本質上,描述性數據挖掘任務通常是探查性的,並且常常需要後處理技術驗證和解釋結果。

  • 上一篇:玩CF時,老是說網絡出現異常,與服務器斷開連接,這是為什麽啊?
  • 下一篇:下列哪些屬於電子商務項目
  • copyright 2024編程學習大全網