當前位置:編程學習大全網 - 編程語言 - hadoop系統原理

hadoop系統原理

1.Hadoop介紹

Hadoop是Apache旗下的壹個用java語言實現開源軟件框架,是壹個開發和運行處理大規模數據的軟件平臺。允許使用簡單的編程模型在大量計算機集群上對大型數據集進行分布式處理。

狹義上說,Hadoop指Apache這款開源框架,它的核心組件有:

HDFS(分布式文件系統):解決海量數據存儲

YARN(作業調度和集群資源管理的框架):解決資源任務調度

MAPREDUCE(分布式運算編程框架):解決海量數據計算

廣義上來說,Hadoop通常是指壹個更廣泛的概念——Hadoop生態圈。

當下的Hadoop已經成長為壹個龐大的體系,隨著生態系統的成長,新出現的項目越來越多,其中不乏壹些非Apache主管的項目,這些項目對HADOOP是很好的補充或者更高層的抽象。

2.Hadoop的特點

擴容能力(Scalable):Hadoop是在可用的計算機集群間分配數據並完成計算任務的,這些集群可用方便的擴展到數以千計的節點中。

成本低(Economical):Hadoop通過普通廉價的機器組成服務器集群來分發以及處理數據,以至於成本很低。

高效率(Efficient):通過並發數據,Hadoop可以在節點之間動態並行的移動數據,使得速度非常快。

可靠性(Rellable):能自動維護數據的多份復制,並且在任務失敗後能自動地重新部署(redeploy)計算任務。所以Hadoop的按位存儲和處理數據的能力值得人們信賴。

3.Hadoop的歷史版本

1.x版本系列:hadoop版本當中的第二代開源版本,主要修復0.x版本的壹些bug等,該版本已被淘汰

2.x版本系列:架構產生重大變化,引入了yarn平臺等許多新特性,是現在使用的主流版本。

3.x版本系列:對HDFS、MapReduce、YARN都有較大升級,還新增了Ozone key-value存儲。

4.Hadoop的架構和模型介紹

由於Hadoop 2.0是基於JDK 1.7開發的,而JDK 1.7在2015年4月已停止更新,這直接迫使Hadoop社區基於JDK 1.8重新發布壹個新的Hadoop版本,即hadoop 3.0。Hadoop 3.0中引入了壹些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支持、MR Native Task優化、YARN基於cgroup的內存和磁盤IO隔離、YARN container resizing等。

Apache hadoop 項目組最新消息,hadoop3.x以後將會調整方案架構,將Mapreduce 基於內存+io+磁盤,***同處理數據。改變最大的是hdfs,hdfs 通過最近block塊計算,根據最近計算原則,本地block塊,加入到內存,先計算,通過IO,***享內存計算區域,最後快速形成計算結果,比Spark快10倍。

  • 上一篇:codecademy(codecademy(學習編程的最佳平臺))
  • 下一篇:機械自動化在機械制造中的應用分析
  • copyright 2024編程學習大全網