如何搭建hadoop集群橋接

本文通過在vmware workstation上建立三臺虛擬機來搭建hadoop集群環境，其中壹臺作為namenode，兩臺作為datanode。

壹、安裝vmware workstation（10.0.0）（壹路下壹步即可）

二、創建3個虛擬機

每個虛擬機安裝Ubuntu 桌面版（我用的11.10，但是有點老了，建議用12.04或更高版本）

namenode建議多給寫內存，我的是namenode 1G內存，20G硬盤，datanode 800M內存，20G硬盤（我電腦內存8G，若內存不夠可以少分點，但是可能有些卡）上網上式可設置為橋接方式：直接連接物理網絡。

三、安裝vmware tools（便於主機和虛擬機直接可以直接拖拽，復制粘貼）

點擊vmware 上虛擬機-》安裝VMware tools，自動打開壹個包含vmware安裝包的位置，可以拷貝到妳有權限的地方，例如/usr/src下用 sudo tar zxvf 軟件包名稱解壓，之後進入解壓後的文件夾，執行

sudo ./vmware-install.sh來安裝，過程中遇見yes或no壹律enter鍵，安裝後重啟生效。

四、配置***享目錄（讓主機和虛擬機直接方便實時***享）

對每個虛擬機，點擊vmware上虛擬機-》設置-》選項，選擇***享文件夾，永久***享，添加壹個本機的目錄所為***享目錄，並為這個***享起壹個名字，例如叫share。這樣在虛擬機上的 /mnt/hgfs下會自動生成share文件夾保持與主機上的目錄實時壹致。重啟生效，有時生效較慢，多重啟幾次就行了，不知何故。

五，安裝ssh，為了壹會的免密碼登陸

對每臺虛擬機運行：sudo apt-get install openssh-server

若不成功，妳可能需要更新壹下資源列表了：sudo apt-get update

六、配置ssh無密碼登錄，方便namenode給datanode分配任務和匯總信息

說明：以下生成的秘鑰默認保存在用戶名空間，所以建議三臺虛擬機建立同樣的用戶名，例如hadoop，也可以都用root用戶。

在name node,和datanode都運行:

ssh-keygen –t dsa -P '' –f ~/.ssh/id_dsa （建議手打此命令，復制有時候不行，註意都是英文字符，-P的P是大寫）

下面將三臺虛擬機的公鑰拷貝到***享目錄中並重命名以供彼此配置使用

在name node:

scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/ id_dsa0.pub

在data node 1:

scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/ id_dsa1.pub

在data node 2:

scp ~/.ssh/id_dsa.pub /mnt/hgfs/share/ id_dsa2.pub

將***享目錄中公鑰分別添加到三臺虛擬機的授權下，分別在name node，data node 1和data node 2執行:

cat /mnt/hgfs/share/id_dsa0.pub >> ~/.ssh/authorized_keys

cat /mnt/hgfs/share/id_dsa1.pub >> ~/.ssh/authorized_keys

cat /mnt/hgfs/share/id_dsa2.pub >> ~/.ssh/authorized_keys

測試：

ssh localhost

ssh 目標機器地址

七，安裝jdk

對每個虛擬機：

下載jdk(jdk1.6.0)並解壓，假定目錄為/usr/src/jdk1.6.0（如果妳的不是，也可以改成是，這樣下面的命令直接復制就行了）

設置環境變量。

#vi /etc/profile

在最後面加入

#set java environment

export JAVA_HOME=/usr/src/jdk1.6.0

export CLASSPATH=.:$JAVA_HOME/lib.tools.jar

export PATH=$JAVA_HOME/bin:$PATH

保存退出。

要使JDK在所有的用戶中使用，可以這樣：

vi /etc/profile.d/java.sh

在新的java.sh中輸入以下內容：

#set java environment

export JAVA_HOME=/usr/src/jdk1.6.0

export CLASSPATH=.:$JAVA_HOME/lib/tools.jar

export PATH=$JAVA_HOME/bin:$PATH

保存退出，然後給java.sh分配權限：chmod 755 /etc/profile.d/java.sh

重啟虛擬機

八、安裝hadoop

在usr/src目錄解壓： tar zxvf hadoop-0.20.2.tar.gz

把hadoop的安裝路徑添加到/etc/profile中：

export HADOOP_HOME=/usr/src/hadoop-0.20.2

export PATH=$HADOOP_HOME/bin:$PATH

九、配置hadoop

在hadoop-0.20.1/conf目錄：

（1）對3個虛擬機，在conf/hadoop-env.sh中配置java環境

vi hadoop-env.sh

在hadoop-env.sh文件中添加

export JAVA_HOME=/usr/src/jdk1.6.0

(2) 用ifconfig命令查看ip地址，假定name node內部地址為192.168.204.157，data node 1和data node 2分別為192.168.204.162，192.168.204.173

對name node配置conf/masters和conf/slaves:

masters : 192.168.204.157

slaves : 192.168.204.162

192.168.204.173

(3)對name node, data node 1和data node2,配置conf/core-site.xml, conf/hdfs-site.xml及conf/mapred-site.xml，配置文件內的IP地址均配置為name node的IP地址（比如name node IP地址為192.168.204.157。

說明：因為三臺上面這三個配置壹樣，所以配置壹份，然後復制粘貼即可。

（又說明：下面之所以上圖片是因為，新浪會把字符按html重新編譯，無法正常顯示，無奈啊）

十、運行hadoop

先把三臺虛擬機的防火墻關了： sudo ufw disable

對name node：

進入hadoop-0.20.2/bin，首先格式化文件系統： hadoop namenode –format

對data node1 和data node 2：

進入hadoop-0.20.2/bin，執行： hadoop datanode –format

對name node：，在bin目錄下執行：

start-all.sh

hadoop dfsadmin –safemode leave

hadoop dfsadmin –report, 查看節點情況，看到類似界面顯示available的Datanodes 。