Hadoop 运行环境搭建

一，集群搭建步骤

1.先在一台虚拟机配置jdk，hadoop
2.克隆
3.修改网络等相关配置
当我们使用虚拟机时，可能自然而然的会想上面的步骤一样先搭建一台虚拟机，做好相关配置，然后进行克隆，继而修改一些网络配置来搭建集群，但是在生产过程中是买好的服务器，不存在克隆这一说，所以在此采用的步骤是：
1.建立一台虚拟机(仅带jdk安装包)
2.克隆
3.修改网络等相关配置
4.配置第一个hadoop节点，编写集群分发脚本使其他虚拟机完成配置

二，具体搭建过程

这里使用三台虚拟机来完成集群搭建，hadoop001，hadoop002,hadoop003，把安装包放在/opt/software，建立虚拟机和克隆就不说了，注意一点，在个人用不能使用sudo命令在/opt建立文件，可以先使用root，然后通过chown scq:scq module/ software/ -R把拥有着赋给个人用户即可

修改网络等配置

修改sudoer文件

su root
ll /etc/sudoers
chmod u+w /etc/sudoers
vim /etc/sudoers
#当用户执行sudo时，系统会主动寻找/etc/sudoers文件，判断该用户是否有执行sudo的权限

修改mac地址，修改ip

sudo vim /etc/udev/rules.d/70-persistent-net.rules

把eth0删除，把eth1改为eth0，同时复制ATTR{address}的值

sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0

把ATTR{address}粘到HWADDR

然后更改IP，ip可以通过图形化界面和命令行两种方式进行更改
这里需要重启一下(可以等所有配置完成后再重启)，如果我们只是修改ip，可以通过sudo /etc/rc.d/init.d/network restart 进行网络重启即可，但是修改网卡配置通过这个命令会报错网上说eth0 里仍然记录着旧的MAC地址，但我更新了sudo /etc/sysconfig/network-scripts/ifcfg-eth0仍然不行

BOOTPROTO=static 静态IP
BOOTPROTO=dhcp 动态IP
BOOTPROTO=none 无（图形化界面修改时BOOTPROTO值为none）

修改主机名

主机名是什么：在命令行中敲入hostname或者命令行每一行中 @后面的内容

sudo vim /etc/sysconfig/network

重启生效，不重启生效的方式不常见，可以自行百度。

修改hosts文件

sudo vim /etc/hosts

关闭防火墙

centos6
/etc/init.d/iptables status
/etc/init.d/iptables start
/etc/init.d/iptables stop
chkconfig iptables off
centos7
systemctl start firewalld
firewall-cmd --state
systemctl stop firewalld
systemctl disable firewalld
systemctl list-unit-files|grep firewalld

注：1.每次开机时修改一下/etc/resolv.conf文件设置网关

安装hadoop，形成hadoop集群

安装单个hadoop

①解压，配置环境变量

②配置文件

对于本地模式，因为本地模式直接运行jvm上，所以不需要对配置文件做配置
对于伪分布式与完全分布式的常见相关配置集中在以下文件中

HDFS
hadoop-env.sh
core-site.xml  ---> nameNode节点 + hadoop 运行时产生文件的存储目录
hdfs-site.xml 副本数 + SecondaryNameNode地址


Yarn
yarn-env.sh    
yarn-site.xml    reducer 获取数据的方式 + 指定 YARN 的 ResourceManager 的地址 + 日志信息上传到 HDFS 系统上


MapReduce
mapred-env.sh  
mapred-site.xml   指定 mr 运行在 yarn 上 + 历史服务器
                
对于xxx-env.sh 就是考虑JAVA_HOME。hadoop-env.sh添加JAVA_HOME,yarn可以辨别JAVA_HOME,mapreduce-env.sh可以不用配置,当然也可以全部都配置

常见的具体配置

<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop001:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>


伪分布式 副本1，无SecondaryNameNode节点
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop004:50090</value>
</property>


<!-- reducer 获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定 YARN 的 ResourceManager 的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop001</value>
</property>
<!-- 日志聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留时间设置 7 天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>


<!-- 指定 mr 运行在 yarn 上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 配置历史服务器-->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop001:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop001:19888</value>
</property>

编写集群分发脚本

1） scp:secure copy 安全拷贝
（a）将 hadoop001 中/opt/module 目录下的软件拷贝到 hadoop002 上。

[scq@hadoop001 /]$ scp -r /opt/module/* scq@hadoop002:/opt/module

（b）将 hadoop001 服务器上的/opt/module 目录下的软件拷贝到 hadoop003 上。

[scq@hadoop003 opt]$ scp -r scq@hadoop101:/opt/module/*    hadoop003:/opt/module

（c）在 hadoop003 上操作将 hadoop001 中/opt/module 目录下的软件拷贝到hadoop004 上。

[scq@hadoop003 opt]$ scp -r scq@hadoop001:/opt/module/* scq@hadoop004:/opt/module

注意一点：

1.用户@主机名:地址，在该主机中，这个用户必须读地址有读权限
2.路径后面记得带*号

2）rsync 远程同步工具
主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync 和 scp 区别：用 rsync 做文件的复制要比 scp 的速度快， rsync 只对差异文件做更新。 scp 是把所有文件都复制过去。
（1）查看 rsync 使用说明

man rsync | more

（2）基本语法

rsync -rvl $pdir/$fname $user@hadoop$host:$pdir

命令命令参数要拷贝的文件路径/名称目的用户@主机:目的路径

（3）选项说明
选项功能
-r 递归
-v 显示复制过程
-l 拷贝符号连接
（4）案例实操
把本机/opt/software 目录同步到 hadoop002 服务器的 root 用户下的/opt/目录

[scq@hadoop001 opt]$ rsync -rvl /opt/software/* hadoop102:/opt/software/

3）rsync 远程同步工具

脚本需求分析：循环复制文件到所有节点的相同目录下。
（1）原始拷贝：

rsync -rvl /opt/module root@hadoop103:/opt/

（2）期望脚本：

xsync 要同步的文件名称
（3）在/home/atguigu/bin 这个目录下存放的脚本， atguigu 用户可以在系统任何地方直接执行。

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then echo no args;
exit;
fi
#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname
#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取当前用户名称
user=`whoami`
#5 循环
for((host=2; host<4; host++)); do
echo --------------------- hadoop00$host ----------------
rsync -rvl $pdir/$fname $user@hadoop00$host:$pdir
done

注1 对于dirname，记住一下几个场景

输入：dirname // 结果为 /（斜杠）。
输入：dirname /a/b/ 结果为：/a。
输入：dirname a 结果为 . （点）。
输入：dirname a/b 结果为路径名 a

.即当前目录，所以脚本中的代码我们使用绝对路径和相对路径都是可行的

注2.脚本中并没有使用*，这个应该也不难理解

分发Hadoop，完成集群搭建

[scq@hadoop001 bin]$ ./xsync /opt/module/hadoop-2.7.2

posted @ 2018-12-15 22:51 Hypergroup 阅读(949) 评论(0) 收藏举报

刷新页面返回顶部

Hypergroup

Talk is cheap, show me the code.