當前位置:編程學習大全網 - 編程語言 - 關於hadoop mapreduce描述正確的是

關於hadoop mapreduce描述正確的是

關於hadoop mapreduce描述正確的是Hadoop Map Reduce是壹種分布式計算模型、主要思想是分而治之、適用於批處理任務。

1、Map Reduce定義

Map Reduce是壹個分布式運算程序的編程框架,是用戶開發“基於Hadoop的數據分析應用”的核心框架。Map Reduce核心功能是將用戶編寫的業務邏輯代碼和自帶默認組件整合成壹個完整的分布式運算程序,並發運行在壹個Hadoop集群上。

簡單說MapReduce是壹個框架,壹個分布式計算框架,只需用戶將業務邏輯放到框架中,就會和框架組成壹個分布式運算程序,在Hadoop集群上實行分布式計算。

MapReduce的核心思想就是將大數據的任務,分解成多個小數據的任務,交由Map分布式處理,最後再由Reduce合並結果。

二、Map Reduce的進程

1、MRApp Master:負責整個MR程序的過程調度以及和Resource Manager的交互,壹個MapReduce只開啟1個。

2、MapTask:負責Map階段的過程調度以及具體實施,壹般為1個到多個,根據切片數量來決定開啟數量。

3、Reduce Task:負責Reduce階段的數據合並處理,壹般為0個到多個,當數據在Map階段就能合並時,Reduce可以不用開啟。

其中Resource Manager就是Yarn的管理者,就是資源管理器的管理者,簡稱為RM。

MapReduce的代碼處理過程:

1、Mapper 階段

Map階段將大的處理任務分為小任務,然後交由各個節點獨立運行,互不幹擾。

2、Reduce 階段

Reduce階段將Map階段的運行結果做匯總。

3、Driver 階段

Driver相當於Yarn集群的客戶端,用於提交整個MapReduce程序到Yarn集群運行,提交的是封裝了Map Reduce程序相關運行參數的Job對象。因為所有的Map Reduce最終都是交由節點來運行的,而具體分配到哪個節點,就由Yarn來做資源分配。

  • 上一篇:東莞臺達電子有限公司
  • 下一篇:合金彈頭Zero詳細資料大全
  • copyright 2024編程學習大全網