如何搭建50t的hadoop集群

先決條件

確保在妳集群中的每個節點上都安裝了所有必需軟件。

獲取Hadoop軟件包。

安裝

安裝Hadoop集群通常要將安裝軟件解壓到集群內的所有機器上。

通常，集群裏的壹臺機器被指定為 NameNode，另壹臺不同的機器被指定為JobTracker。這些機器是masters。余下的機器即作為DataNode也作為TaskTracker。這些機器是slaves。

我們用HADOOP_HOME指代安裝的根路徑。通常，集群裏的所有機器的HADOOP_HOME路徑相同。

配置

接下來的幾節描述了如何配置Hadoop集群。

配置文件

對Hadoop的配置通過conf/目錄下的兩個重要配置文件完成：

hadoop-default.xml - 只讀的默認配置。

hadoop-site.xml - 集群特有的配置。

要了解更多關於這些配置文件如何影響Hadoop框架的細節，請看這裏。

此外，通過設置conf/hadoop-env.sh中的變量為集群特有的值，妳可以對bin/目錄下的Hadoop腳本進行控制。

集群配置

要配置Hadoop集群，妳需要設置Hadoop守護進程的運行環境和Hadoop守護進程的運行參數。

Hadoop守護進程指NameNode/DataNode 和JobTracker/TaskTracker。

配置Hadoop守護進程的運行環境

管理員可在conf/hadoop-env.sh腳本內對Hadoop守護進程的運行環境做特別指定。

至少，妳得設定JAVA_HOME使之在每壹遠端節點上都被正確設置。

管理員可以通過配置選項HADOOP_*_OPTS來分別配置各個守護進程。下表是可以配置的選項。