確保在妳集群中的每個節點上都安裝了所有必需軟件。
獲取Hadoop軟件包。
安裝
安裝Hadoop集群通常要將安裝軟件解壓到集群內的所有機器上。
通常,集群裏的壹臺機器被指定為 NameNode,另壹臺不同的機器被指定為JobTracker。這些機器是masters。余下的機器即作為DataNode也作為TaskTracker。這些機器是slaves。
我們用HADOOP_HOME指代安裝的根路徑。通常,集群裏的所有機器的HADOOP_HOME路徑相同。
配置
接下來的幾節描述了如何配置Hadoop集群。
配置文件
對Hadoop的配置通過conf/目錄下的兩個重要配置文件完成:
hadoop-default.xml - 只讀的默認配置。
hadoop-site.xml - 集群特有的配置。
要了解更多關於這些配置文件如何影響Hadoop框架的細節,請看這裏。
此外,通過設置conf/hadoop-env.sh中的變量為集群特有的值,妳可以對bin/目錄下的Hadoop腳本進行控制。
集群配置
要配置Hadoop集群,妳需要設置Hadoop守護進程的運行環境和Hadoop守護進程的運行參數。
Hadoop守護進程指NameNode/DataNode 和JobTracker/TaskTracker。
配置Hadoop守護進程的運行環境
管理員可在conf/hadoop-env.sh腳本內對Hadoop守護進程的運行環境做特別指定。
至少,妳得設定JAVA_HOME使之在每壹遠端節點上都被正確設置。
管理員可以通過配置選項HADOOP_*_OPTS來分別配置各個守護進程。 下表是可以配置的選項。