CentOS7上安装Hadoop

设置ssh
ssh-keygen -t rsa -P ''
cat id_rsa.pub >> authorized_keys

查看slaves节点的id_rsa.pub文件，将文件内容复制到master节点的authorized_keys文件中
【tips】粘贴过去的每一行必须保证单独是一行！
分发authorized_keys文件到slaves节点
scp authorized_keys root@slave1:~/.ssh/
scp authorized_keys root@slave2:~/.ssh/

修改hosts
vim /etc/hosts
192.168.0.100 master
192.168.0.101 slave1
192.168.0.102 slave2

解压安装
tar -zxvf hadoop-2.6.1.tar.gz -C /usr/local/src/hadoop/

配置java环境变量
cd ./hadoop-2.6.1/etc/hadoop
ls
vim hadoop-env.sh
24行左右，更新
JAVA_HOME=/usr/local/src/jdk/jdk1.8.0_221

vim yarn-env.sh
23行左右添加
JAVA_HOME=/usr/local/src/jdk/jdk1.8.0_221

添加从节点主机名
vim slaves

添加：
slave1
slave2

修改配置文件，添加RPC配置【tips】pdf中的hadoop.tmp.dir是不需要前面的"file:"字眼的，当集群启动不成功的时候可以排查下这个原因
vim core-site.xml

更新以下配置内容：
<configuration>>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/src/hadoop/hadoop-2.6.1/tmp</value>
</property>
</configuration>

修改配置文件，添加DFS配置
vim hdfs-site.xml

更新以下配置内容：
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>>dfs.namenode.name.dir</name>
<value>file:/usr/local/src/hadoop/hadoop-2.6.1/dfs/name</value>
</property>
<property>
<name>>dfs.namenode.data.dir</name>
<value>file:/usr/local/src/hadoop/hadoop-2.6.1/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>

修改配置文件，添加MR配置
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

更新以下配置内容：
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

修改配置文件，添加资源管理配置
vim yarn-site.xml
更新以下配置内容：
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8035</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>

创建临时目录和文件目录
mkdir /usr/local/src/hadoop/hadoop-2.6.5/tmp
mkdir -p /usr/local/src/hadoop/hadoop-2.6.5/dfs/name
mkdir -p /usr/local/src/hadoop/hadoop-2.6.5/dfs/data

配置环境变量
vim /etc/profile
在配置末尾追加以下配置内容：
export HADOOP_HOME=/usr/local/src/hadoop/hadoop-2.6.1
export PATH=$PATH:$HADOOP_HOME/bin

复制环境变量和hadoop包，到各个从节点（只举一个从节点）
scp /etc/profile root@slave1:/etc/profile
scp -r /usr/local/src/hadoop/hadoop-2.6.1 root@slave1:/usr/local/src/hadoop/hadoop-2.6.1

加载环境变量
source /etc/profile

格式化namenode
hadoop namenode -format
【notes】此时如果不能正常格式化的话，修改core-site.xml文件配置hadoop.tmp.dir时重试。

测试hadoop集群是否正常
启动集群
./sbin/start-all.sh
查看jps
jps
--master将有3个进程: ResourceManager - Namenode - SecondaryNameNode
--slave1和slave2各有2个进程：NodeManager - DataNode

posted on 2020-02-06 16:17 chengloading 阅读(141) 评论(0) 收藏举报