屬於數據處理方面的計算機應用。
數據處理流程主要包括數據收集、數據預處理、數據存儲、數據處理與分析、數據展示/數據可視化、數據應用等環節,其中數據質量貫穿於整個大數據流程,每壹個數據處理環節都會對大數據質量產生影響作用。
通常,壹個好的數據產品要有大量的數據規模、快速的數據處理、精確的數據分析與預測、優秀的可視化圖表以及簡練易懂的結果解釋。
擴展資料:
數據的分布式處理技術與存儲形式、業務數據類型等相關,針對大數據處理的主要計算模型有MapReduce分布式計算框架、分布式內存計算系統、分布式流計算系統等。
MapReduce是壹個批處理的分布式計算框架,可對海量數據進行並行分析與處理,它適合對各種結構化、非結構化數據的處理。分布式內存計算系統可有效減少數據讀寫和移動的開銷,提高大數據處理性能。分布式流計算系統則是對數據流進行實時處理,以保障大數據的時效性和價值性。
總之,無論哪種大數據分布式處理與計算系統,都有利於提高大數據的價值性、可用性、時效性和準確性。
大數據的類型和存儲形式決定了其所采用的數據處理系統,而數據處理系統的性能與優劣直接影響大數據質量的價值性、可用性、時效性和準確性。因此在進行大數據處理時,要根據大數據類型選擇合適的存儲形式和數據處理系統,以實現大數據質量的最優化。
百度百科——數據處理