配置hadoop集群是怎麽配置的

在過去，大數據處理主要是采用標準化的刀片式服務器和存儲區域網絡（SAN）來滿足網格和處理密集型工作負載。然而隨著數據量和用戶數的大幅增長，基礎設施的需求已經發生變化，硬件廠商必須建立創新體系，來滿足大數據對包括存儲刀片，SAS（串行連接SCSI）開關，外部SATA陣列和更大容量的機架單元的需求。即尋求壹種新的方法來存儲和處理復雜的數據，Hadoop正是基於這樣的目的應運而生的。Hadoop的數據在集群上均衡分布，並通過復制副本來確保數據的可靠性和容錯性。因為數據和對數據處理的操作都是分布在服務器上，處理指令就可以直接地發送到存儲數據的機器。這樣壹個集群的每個服務器器上都需要存儲和處理數據，因此必須對Hadoop集群的每個節點進行配置，以滿足數據存儲和處理要求。

Hadoop框架中最核心的設計是為海量數據提供存儲的HDFS和對數據進行計算的MapReduce。MapReduce的作業主要包括從磁盤或從網絡讀取數據，即IO密集工作，或者是計算數據，即CPU密集工作。Hadoop集群的整體性能取決於CPU、內存、網絡以及存儲之間的性能平衡。因此運營團隊在選擇機器配置時要針對不同的工作節點選擇合適硬件類型。壹個基本的Hadoop集群中的節點主要有：Namenode負責協調集群中的數據存儲，DataNode存儲被拆分的數據塊，Jobtracker協調數據計算任務，最後的節點類型是Secondarynamenode，幫助NameNode收集文件系統運行的狀態信息。

在集群中，大部分的機器設備是作為Datanode和TaskTracker工作的。Datanode/TaskTracker的硬件規格可以采用以下方案：

4個磁盤驅動器（單盤1-2T），支持JBOD

2個4核CPU,至少2-2.5GHz

16-24GB內存

千兆以太網

Namenode提供整個HDFS文件系統的namespace管理，塊管理等所有服務,因此需要更多的RAM，與集群中的數據塊數量相對應，並且需要優化RAM的內存通道帶寬，采用雙通道或三通道以上內存。硬件規格可以采用以下方案：

8-12個磁盤驅動器（單盤1-2T）

2個4核/8核CPU

16-72GB內存

千兆/萬兆以太網

Secondarynamenode在小型集群中可以和Namenode***用壹臺機器，較大的群集可以采用與Namenode相同的硬件。考慮到關鍵節點的容錯性，建議客戶購買加固的服務器來運行的Namenodes和Jobtrackers，配有冗余電源和企業級RAID磁盤。最好是有壹個備用機，當 namenode或jobtracker 其中之壹突然發生故障時可以替代使用。

目前市場上的硬件平臺滿足Datanode/TaskTracker節點配置需求的很多，，據了解深耕網絡安全硬件平臺多年的立華科技瞄準了Hadoop的發展前景，適時推出了專門針對NameNode的設備----雙路至強處理器搭載12塊硬盤的FX-3411，將計算與存儲完美融合，四通道內存的最大容量可達到256GB，完全滿足NameNode對於壹個大的內存模型和沈重的參考數據緩存組合的需求。

同時在網絡方面，FX-3411支持的2個PCI-E*8的網絡擴展，網絡吞吐達到80Gbps，更是遠遠滿足節點對千兆以太網或萬兆以太網的需求。此外針對Datanode/TaskTracker等節點的配置需求，立華科技不僅推出了可支持單路至強E38核處理器和4塊硬盤的標準品FX-3210，還有可以全面客制化的解決方案，以滿足客戶的不同需求。

Hadoop集群往往需要運行幾十，幾百或上千個節點，構建匹配其工作負載的硬件，可以為壹個運營團隊節省可觀的成本，因此，需要精心的策劃和慎重的選擇。

上一篇:網站被ddos攻擊報警網站被ddos報警無門

下一篇:女人三件戰袍是哪三件

經典笑話（適合小學生聽的）及搞笑（富有意義）的圖片？

千山暮雪最後什麽結局

應收應付賬款明細賬表格