當前位置:編程學習大全網 - 編程語言 - 大數據的結構層級?

大數據的結構層級?

隨著互聯網的發展,越來越多的信息充斥在網絡上,而大數據就是依靠對這些信息的收集、分類、歸納整理出我們所需要的信息,然後利用這些信息完成壹些工作需要的壹項能力技術。

今天,回龍觀電腦培訓主要就是來分析壹下,大數據這項技術到底有那幾個層次。

移動互聯網時代,數據量呈現指數級增長,其中文本、音視頻等非結構數據的占比已超過85%,未來將進壹步增大。Hadoop架構的分布式文件系統、分布式數據庫和分布式並行計算技術解決了海量多源異構數據在存儲、管理和處理上的挑戰。

從2006年4月第壹個ApacheHadoop版本發布至今,Hadoop作為壹項實現海量數據存儲、管理和計算的開源技術,已叠代到了v2.7.2穩定版,其構成組件也由傳統的三駕馬車HDFS、MapReduce和HBase社區發展為由60多個相關組件組成的龐大生態,包括數據存儲、執行引擎、編程和數據訪問框架等。其生態系統從1.0版的三層架構演變為現在的四層架構:

底層——存儲層

現在互聯網數據量達到PB級,傳統的存儲方式已無法滿足高效的IO性能和成本要求,Hadoop的分布式數據存儲和管理技術解決了這壹難題。HDFS現已成為大數據磁盤存儲的事實標準,其上層正在湧現越來越多的文件格式封裝(如Parquent)以適應BI類數據分析、機器學習類應用等更多的應用場景。未來HDFS會繼續擴展對於新興存儲介質和服務器架構的支持。另壹方面,區別於常用的Tachyon或Ignite,分布式內存文件系統新貴Arrow為列式內存存儲的處理和交互提供了規範,得到了眾多開發者和產業巨頭的支持。

區別於傳統的關系型數據庫,HBase適合於非結構化數據存儲。而Cloudera在2023年10月公布的分布式關系型數據庫Kudu有望成為下壹代分析平臺的重要組成,它的出現將進壹步把Hadoop市場向傳統數據倉庫市場靠攏。

中間層——管控層

管控層對Hadoop集群進行高效可靠的資源及數據管理。脫胎於MapReduce1.0的YARN已成為Hadoop2.0的通用資源管理平臺。如何與容器技術深度融合,如何提高調度、細粒度管控和多租戶支持的能力,是YARN需要進壹步解決的問題。另壹方面,Hortonworks的Ranger、Cloudera的Sentry和RecordService組件實現了對數據層面的安全管控。

  • 上一篇:美麗的校園四年級作文
  • 下一篇:玩世嘉網球2009總是卡住
  • copyright 2024編程學習大全網