hadoop 集群环境的搭建

硬件环境：

内存10G,硬盘32G

软件环境:

Ubuntu　12.04(64)3台

node1　　ip:10.75.189.184

node2　　ip:10.75.189.186

node3　　ip:10.75.189.185

jdk　　　 1.7.0_71

hadoop　 2.6.0

1、准备工作

安装ssh,使用ps aux | grep ssh[d]可以查看是否已经安装过sshd

apt-get install openssh-server

配置node1到node2、3的无密码登陆

在node1上，使用命令ssh-kengen -t rsa，一路回车

之后在node2、3上操作

生成ssh密钥，位于~.ssh/目录下，两个文件，id_rsa id_rsa.pub

使用cp id_rsa.pub authorized_keys使得本机登陆本机可以免密码，测试命令 ssh 10.75.189.184(本机IP)

将authorized_keys 复制到node2、3中

scp authorized_keys 10.75.189.185:~/.ssh/

scp authorized_keys 10.75.189.186:~/.ssh/

完毕后使用ssh 10.75.189.185和ssh 10.75.189.186进行测试

配置/etc/hosts文件，使得机器可以通过主机名互访

在node1-3中添加如下内容

10.75.189.184 node1
10.75.189.185 node3
10.75.189.186 node2

可以通过在node1上 ssh node1、node2、node3进行测试是否生效

另外在安装前，需要保证JAVA环境变量的配置正确

(参考方法为将JAVA_HOME配置在/etc/profile文件中，使用source /etc/profile使其生效)

2、安装过程

将下载好的hadoop tar包放到~/目录下

　　a、解压

　　　　tar zxvf hadoop-2.6.0.tar.gz

　　　　生成 hadoop-2.6.0目录，即hadoop的根目录

　　　　使用scp将hadoop-2.6.0复制到node2、3中同样的位置

　　b、配置文件修改

　　　　主要涉及到的文件有：hadoop-env.sh、core-site.xml、yarn-site.xml、mapred-site.xml

　　　　hadoop-env.sh中，配置JAVA_HOME

　　　　core-site.xml配置内容为：

　　　　<configuration>
　　　　　　<property>
　　　　　　　　<name>fs.defaultFS</name>
　　　　　　　　<value>hdfs://10.75.189.184:49000</value>
　　　　　　</property>
　　　　</configuration>

　　　　yarn-site.xml配置内容为：

　　　　<configuration>
　　　　　　<property>
　　　　　　　　<name>yarn.nodemanager.aux-services</name>
　　　　　　　　<value>mapreduce_shuffle</value>
　　　　　　</property>

　　　　　　<property>
　　　　　　　　<description>The address of the applications manager interface in the RM.</description>
　　　　　　　　<name>yarn.resourcemanager.address</name>
　　　　　　　　<value>10.75.189.184:18040</value>
　　　　　　</property>

　　　　　　<property>
　　　　　　　　<description>The address of the scheduler interface.</description>
　　　　　　　　<name>yarn.resourcemanager.scheduler.address</name>
　　　　　　　　<value>10.75.189.184:18030</value>
　　　　　　</property>

　　　　　　<property>
　　　　　　　　<description>The address of the RM web application.</description>
　　　　　　　　<name>yarn.resourcemanager.webapp.address</name>
　　　　　　　　<value>10.75.189.184:18088</value>
　　　　　　</property>

　　　　　　<property>
　　　　　　　　<description>The address of the resource tracker interface.</description>
　　　　　　　　<name>yarn.resourcemanager.resource-tracker.address</name>
　　　　　　　　<value>10.75.189.184:8025</value>
　　　　　　</property>
　　　　</configuration>

　　　　mapred-site.xml配置内容为：　　

　　　　<configuration>
　　　　　　<property>
　　　　　　　　<name>mapreduce.framework.name</name>
　　　　　　　　<value>yarn</value>
　　　　　　</property>
　　　　</configuration>

　　　　最后修改slaves文件

　　　　内容为：node2、node3 一行一个

　　c、添加环境变量

　　　　修改/etc/profile

　　　　添加hadoop的home目录，bin目录

　　d、同步操作

　　　　使用scp或者rsync将node1上的配置文件全都覆盖到node2、3上

3、启动

　　首先需要格式化文件系统

　　hadoop namenode -format

　　格式化成功后

　　进入hadoop目录下的sbin目录中，在命令行中输入./start-dfs.sh 使用jps在node1\2\3上分别查看

　　node1　　SecondaryNameNode　　NameNode

　　node2　　DateNode

　　node3　　DateNode

　　这些进程是否都启动，然后在node1 sbin目录中启动mr-jobhistory-daemon.sh，并使用jps查看JobHistoryServer是否启动

　　在命令行中输入./start-yarn.sh 使用jps在node1、2、3上分别查看

　　node1　　ResourceManager

　　node2　　NodeManager

　　node3　　NodeManager

　　至此，如果没有异常，hadoop基本安装完成，最后在浏览器中输入如下地址：

　　node1:50070

　　node1:18088

　　可以查看hdfs文件系统和yarn系统

　　(在bin和sbin中以.cmd结尾的文件可以都删掉，rm -rf *.cmd)

posted on 2015-01-12 21:16 ayy2014 阅读(112) 评论(0) 收藏举报