hadoop集群部署

1）准备3台客户机（关闭防火墙、配置静态IP、主机名称）
2）安装JDK
3）配置环境变量
4）安装Hadoop
5）配置环境变量
6）配置集群
7）单点启动
8）配置ssh
9）群起并测试集群

1.先配置一台服务器

1.1 将这台服务器得环境拷贝到其他两台

scp（secure copy）安全拷贝命令

基本语法

scp    -r        $pdir/$fname         $user@$host:$pdir/$fname
命令   递归     要拷贝的文件路径/名称   目的地用户@主机:目的地路径/名称

前提
在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module /opt/software两个目录，并且已经把这两个目录修改为atguigu:atguigu

在hadoop102上，将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。

scp -r /opt/module/jdk1.8.0_212  atguigu@hadoop103:/opt/module

在hadoop103上查看是否拷贝成功

也可以在hadoop3服务器上，将hadoop102上的文件拉取到hadoop103

scp -r atguigu@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/

rsync远程同步工具
- rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
- rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

基本语法

rsync    -av                $pdir/$fname             $user@$host:$pdir/$fname
命令   (归档拷贝，显示过程)   要拷贝的文件路径/名称      目的地用户@主机:目的地路径/名称

1.2 编写脚本实现分发文件

编写脚本

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

修改脚本具有执行权限

chmod +x xsync

测试分发

./xsync /home/atguigu/bin

将脚本复制到/bin中，以便全局调用

sudo cp xsync /bin/

分发jdk及hadoop环境变量配置

sudo /bin/xsync /etc/profile.d/my_env.sh

分发jdk及hadoop解压后的文件夹

sudo /bin/xsync /opt/module/

在另外两台服务器使配置文件生效

source /etc/profile

1.3 SSH免密登录配置

在一台主机上通过ssh访问另一台主机

语法

ssh root@hadoop103
ssh 用户名@主机名(需要在hosts文件配置主机名和ip映射关系)或者主机ip

操作

先在hadoop102服务器上生成公钥和私钥

ssh-keygen -t rsa

敲3个回车

将生成的公钥分发给其他两台服务器

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

注意：

还需要在hadoop103上采用atguigu账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。(先在103上生成公私钥，再分发公钥)
还需要在hadoop104上采用atguigu账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。(先在104上生成公私钥，再分发公钥)
还需要在hadoop102上采用root账号，配置一下无密登录到hadoop102、hadoop103、hadoop104；

# 切换root用户
sudo su
# 生成公私钥
ssh-keygen -t rsa
# 分发root用户无秘登录
ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

.ssh文件夹下（~/.ssh）的文件功能解释

known_hosts	记录ssh访问过计算机的公钥（public key）
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过的无密登录服务器公钥

2.集群配置

注意：

NameNode和SecondaryNameNode不要安装在同一台服务器
ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

配置文件说明

Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。(自定义配置优先级高于默认配置)

默认配置在jar包内

要获取的默认文件	文件存放在Hadoop的jar包中的位置
[core-default.xml]	hadoop-common-3.1.3.jar/core-default.xml
[hdfs-default.xml]	hadoop-hdfs-3.1.3.jar/hdfs-default.xml
[yarn-default.xml]	hadoop-yarn-common-3.1.3.jar/yarn-default.xml
[mapred-default.xml]	hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml

自定义配置

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

在hadoop102上修改自定义配置文件，然后使用自编写的脚本分发给其他2台服务器

2.1 核心配置文件

vim core-site.xml

文件内容

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>

    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>

    <!-- 配置HDFS网页登录使用的静态用户为atguigu -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>atguigu</value>
    </property>
</configuration>

2.2 HDFS配置文件

vim hdfs-site.xml

文件内容

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- nn web端访问地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop102:9870</value>
    </property>
	<!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:9868</value>
    </property>
</configuration>

2.3 YARN配置文件

vim yarn-site.xml

文件内容

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

2.3 MapReduce配置文件

vim mapred-site.xml

文件内容

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

2.4 将配置文件分发给其他两台服务器

xsync /opt/module/hadoop-3.1.3/etc/hadoop

去其他两台服务器查看是否分发成功。

2.5配置workers

该配置文件声明了该集群都包含哪些服务器

vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在文件末尾添加

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

hadoop102
hadoop103
hadoop104

分发给其他两台服务器

xsync /opt/module/hadoop-3.1.3/etc

3.启动集群

3.1 初始化

只有第一次启动集群的时候需要初始化。

如果集群是第一次启动，需要在hadoop102节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

初始化指令

hdfs namenode -format

初始化完成后在hadoop根目录会多一个data目录和一个logs目录，下图可以对比一下。

初始化完成后在data目录会生成当前服务器相关信息

3.2 启动集群

# 在hadoop根目录下的sbin文件夹中的启动脚本
sbin/start-dfs.sh

使用jps查看启动的进程

jps(Java Virtual Machine Process Status Tool)是java提供的一个显示当前所有java进程pid的命令，适合在linux/unix平台上简单察看当前java进程的一些简单情况。

在配置了ResourceManager的节点（hadoop103）启动YARN

sbin/start-yarn.sh

Web端查看HDFS的NameNode

浏览器中输入：http://hadoop102:9870
查看HDFS上存储的数据信息

Web端查看YARN的ResourceManager

浏览器中输入：http://hadoop103:8088
查看YARN上运行的Job信息

3.3集群基本测试

FS Shell

调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child，或者更简单的/parent/child（假设你配置文件中的默认值是namenode:namenodeport）。大多数FS Shell命令的行为和对应的Unix Shell命令类似，不同之处会在下面介绍各命令使用详情时指出。出错信息会输出到stderr，其他信息输出到stdout。
https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html#put

在根目录下使用haoop fs 创建一个文件夹，用来存放上传的文件。

该文件夹相当于一个集群文件夹，在根目录中不显示

hadoop fs -mkdir /wcinput

上传小文件

新建一个txt文件，将test.txt文件上传到/wcinput目录

hadoop fs -put test.txt /wcinput

在前端界面查看

上传大文件

hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /wcinput

查看上传的文件保存在服务器什么位置

拼接块文件

[atguigu@hadoop102 subdir0]$ cat blk_1073741826>>tmp.tar.gz
[atguigu@hadoop102 subdir0]$ cat blk_1073741827>>tmp.tar.gz

# 解压临时文件
tar -zxvf tmp.tar.gz
# 查看解压后的目录
ll

查看103上是否有副本

测试yarn资源调度

执行mapreduce wordcount统计。
注意：如果集群文件夹/output已存在，执行该指令时会报错，提示文件夹已存在，需更改输出文件夹或者使用hadoop fs -rm /wcoutput删除该文件夹。
使用hadoop fs -ls /查看当前集群有哪些文件夹。

# 先删除之前上传的jdk，才能使用统计功能
hadoop fs -rm /wcinput/jdk-8u212-linux-x64.tar.gz
# 如果提示wcoutput文件夹已存在，该文件夹也删除
hadoop fs -rmr /wcoutput
# 查看是否删除成功
hadoop fs -ls /
# 使用mapreduce的wordcount功能
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutput

执行成功会统计每个单词出现的次数。

3.4 配置历史服务器

当使用mapreduce功能时，如果没有配置历史服务器，那么就无法查看mapreduce历史任务。

在hadoop102上编辑配置mapred-site.xml

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
</property>

将配置文件分发给其他服务器

xsync mapred-site.xml

在hadoop102上启动历史服务器

mapred --daemon start historyserver

查看历史服务器是否启动成功

jps

在网页端点击查看

3.5 配置日志聚集功能

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。
将集群服务器中的日志聚集，便于查看集群日志。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

具体步骤

1.配置yarn-site.xml

<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

2.分发配置

xsync yarn-site.xml

3.关闭NodeManager 、ResourceManager和HistoryServer

# hadoop103服务器
sbin/stop-yarn.sh

# hadoop102服务器
mapred --daemon stop historyserver

4.重新启动NodeManager 、ResourceManage和HistoryServer

# hadoop103服务器
start-yarn.sh

# hadoop102服务器
mapred --daemon start historyserver

5.删除HDFS上已经存在的输出文件目录

hadoop fs -rm -r /wcoutput

6.重新执行WordCount程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutput

7.查看日志

4.集群启动与停止

4.1 各个模块分开启动/停止（配置ssh是前提）常用

（1）整体启动/停止HDFS

start-dfs.sh/stop-dfs.sh

（2）整体启动/停止YARN

start-yarn.sh/stop-yarn.sh

4.2 各个服务组件逐一启动/停止

（1）分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

（2）启动/停止YARN

yarn --daemon start/stop  resourcemanager/nodemanager

4.3 编写Hadoop集群常用脚本

1.Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）：myhadoop.sh

cd /home/atguigu/bin
vim myhadoop.sh

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

保存退出，赋予脚本权限

chmod 777 myhadoop.sh

测试脚本启停功能

2.查看三台服务器Java进程脚本：jpsall
每次查看集群服务是否启动完成，都需要在对应服务器上通过jps查看,编写脚本解决这一问题。

cd /home/atguigu/bin
vim jpsall

输入如下内容

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

保存后退出，然后赋予脚本执行权限

chmod 777 jpsall

测试

分发/home/atguigu/bin目录，保证自定义脚本在三台机器上都可以使用

xsync /home/atguigu/bin/

在hadoop103上测试

5.常用端口号汇总

端口名称	Hadoop2.x	Hadoop3.x
NameNode内部通信端口	8020 / 9000	8020 / 9000/9820
NameNode HTTP UI	50070	9870
MapReduce查看执行任务端口	8088	8088
历史服务器通信端口	19888	19888

6. 集群时间同步

如果服务器在公网环境（能连接外网），可以不采用集群时间同步，因为服务器会定期和公网时间进行校准；
如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步。

posted @ 2022-10-28 17:32 初夏那片海阅读(239) 评论(0) 收藏举报

刷新页面返回顶部

初夏那片海

hadoop集群部署

1.先配置一台服务器

1.1 将这台服务器得环境拷贝到其他两台

1.2 编写脚本实现分发文件

1.3 SSH免密登录配置

2.集群配置

2.1 核心配置文件

2.2 HDFS配置文件

2.3 YARN配置文件

2.3 MapReduce配置文件

2.4 将配置文件分发给其他两台服务器

2.5配置workers

3.启动集群

3.1 初始化

3.2 启动集群

3.3集群基本测试

3.4 配置历史服务器

3.5 配置日志聚集功能

4.集群启动与停止

4.1 各个模块分开启动/停止（配置ssh是前提）常用

4.2 各个服务组件逐一启动/停止

4.3 编写Hadoop集群常用脚本

5.常用端口号汇总

6. 集群时间同步

公告