Centos8.3、hadoop-2.6.4 简单的日志分析实验

引言前段时间答应朋友做一个hadoop分析日志的教程，说完就后悔了，我已经很久没碰它了，为了实现这个承诺不得以又把以前买的书找出来研究一下。值得庆幸的是以前的笔记还在不需要我从头再来。不过搭建hadoop的环境很复杂，我也不准备做从零开始的教程，我准备把我搭建好的环境直接搬过来了，这样不用纠结环境搭建的复杂，也不需要了解Map/Reducer编程就可以直接体验一下hadoop的魅力。

环境准备

序号	环境和数据	版本	下载地址
1	CentOS-8.3.2011-x86_64-minimal.iso	8.3	链接: https://pan.baidu.com/s/1kWRffCoup2Oxat953ZAe5w 提取码: ml2e
2	hadoop-2.6.4.tar.gz	2.6.4	链接: https://pan.baidu.com/s/1A_fqViL62xrZ6rnA1M8nYQ 提取码: nfna
3	jdk-7u80-linux-x64.rpm	1.7	链接: https://pan.baidu.com/s/1sGneDO4jcfk5ZlbOLVZVpA 提取码: 5nmj
4	access.txt		链接: https://pan.baidu.com/s/1aKlVcXrrWo5kEmoWa7DD8Q 提取码: 5bgu

注意:请一定使用以上的地址下载的，不然可能出现很多未知的问题。hadoop-2.6.4.tar.gz 配置文件是我改过的，access.txt 是用来测试的tomcat日志数据。

第一步使用虚拟机软件安装操作系统（没有装过的同学可以去补下课，这里就不讲了）

第二步操作系统安装好后，先关闭防火墙顺便安装一下vim，具体操作如下：

systemctl stop firewalld.service     #停止firewall
systemctl disable firewalld.service  #禁止firewall开机启动
yum -y install vim                   #安装vim

第三步使用上面的下载地址下载jdk1.7上传到刚才创建的centos8.3虚拟机使用命令安装(这里一定要使用rpm安装因为这个安装目录是固定的)安装目录为/usr/java/jdk1.7.0_80 这个jdk的目录已经被我写在hadoop配置中。安装命令如下

rpm -ivh jdk-7u80-linux-x64.rpm #rpm 安装jdk

java -version #查看安装是否成功

第四步使用上面地址下载hadoop-2.6.4.tar.gz（注意这个包基本配置都是配置好的，不需要做调整的）包然后解压到 /usr/local 目录下解压命令如下

tar -zxf hadoop-2.6.4.tar.gz -C /usr/local

第五步编辑 /etc/profile 文件添加内容如下

vim /etc/profile # 打开文件编辑

# 在文件尾部追加以下内容
export JAVA_HOME=/usr/java/jdk1.7.0_80
export JRE_HOME=$JAVA_HOME/jre
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/jre
export HADOOP_HOME=/usr/local/hadoop-2.6.4/bin
export PATH=$PATH:$HADOOP_HOME

source /etc/profile #保存文件后执行

完成后执行 hadoop 或者hdfs 命令看看是否成功正确结果如

第六步关闭虚拟机然后克隆一台实例（这里做实验克隆一台就够了）

克隆完成修改实例名称第一台实例hostname 更改为master 第二台实例更改为slave1 如下图:

vim /etc/hostname #编辑实例名称

reboot            #重启boot

第七步配置ssh 无密钥访问

1.在master实例执行

ssh-keygen -t rsa

注意这里所有输入直接回车

2.在slave1实例执行(同上所有输入直接回车)

ssh-keygen -t rsa

注意 slave1实例上我们cd 到/root/.ssh/ 目录使用ls命令查看有两个文件分别是 id_rsa 和 id_rsa.pub 我们拷贝id_rsa.pub 文件并且重新命名为slave1 然后复制slave1文件到master实例上命令如下

cd /root/.ssh/                                 #跳转到/root/.ssh目录
cp id_rsa.pub ./slave1                         #复制 id_rsa.pub文件并且重名命为slave1
scp ./slave1 root@172.16.102.15:/root/.ssh/    #将slave1文件复制到master实例/root/.ssh/目录下  注意 （1）.要输入yes 和 master实例的密码。（2）172.16.102.15 这个是master实例的ip根据自己master实际ip修改

如下图:（图片这里master ip地址写错了应该是172.16.102.15 而不是16）

然后我们来到master实例同样到/root/.ssh 目录下合并master实例的id_rsa.pub 文件和slave1实例复制过来的文件并且命名为 authorized_keys 命令如下：

cd /root/.ssh/
cat id_rsa.pub slave1 >>authorized_keys                   #合并master和slave1的密钥文件
scp ./authorized_keys root@172.16.102.16:/root/.ssh       #复制合并后的文件到slave1实例  注意 172.16.102.16 是slave1的ip要根据自己实际的ip修改命令

操作如下图：

测试效果

第八步编辑/etc/hosts文件如下图

注意这两个ip要改成自己实际的ip 然后同步host文件到其他实例这里我是在master实例上编辑的所以需要同步到slave1实例。执行如下命令：

scp /etc/hosts slave1:/etc/hosts

第九步编辑 master实例子中 hadoop的slave文件文件位于 /usr/local/hadoop-2.6.4/etc/hadoop 编辑内容很简单之前在slave中我配置了三台slave实例现在只有一台删除另外两个配置就好结果如下

第十步格式化节点在master、slave实例分别执行

 hdfs namenode -format

执行结果如下：

第十一步尝试启动hadoop 我们来到master实例 /usr/local/hadoop-2.6.4 目录下执行 ./start_hadoop.sh 脚本正确结果如下

在master实例执行jps命令测试正确结果如下

在slave1实例上测试正确结果如下

第十二步访问管理界面

修改自己本机器的hosts文件添加

172.16.102.15 master
172.16.102.16 slave1

http://master:50070/dfshealth.html#tab-overview

http://master:8088/cluster

http://master:19888/jobhistory

http://master:50070/nn_browsedfscontent.jsp 本次实验主要使用的是这个地址

访问后界面如下

到这环境终于准备好了，即使我是复制之前搭建的环境，还是有点复杂。现在我们开始准备日志分析。

第一步上传日志文件到master实例然后在上传到hdfs 上传文件到hdfs需要先hdfs文件夹创建和上传命令如下

hdfs dfs -mkdir /aiatt                    #创建aiatt文件夹
hdfs dfs -put ./access.txt   /aiatt       #上传access 日志文件到hdfs文件系统 aiatt目录下

操作结果如下：

然后我们刷新 http://master:50070/nn_browsedfscontent.jsp 页面查看结果

现在我们开始执行Map/Reduce 任务任务如下：

这段日志是某个tomcat的请求记录日志，现在我们想要的结果是计算出每个请求请求的频率然后针对有请求频率过高的接口做优化或者缓存。针对这个任务的MapReduce我也已经写好了直接下载

链接: https://pan.baidu.com/s/1Wu6uDSBBZK9Wsaue1kmWXQ 提取码: obw5
然后上传到master实例执行一下命令

hadoop jar ./aiatt.jar /aiatt/access.txt /aiatt/output/result

/aiatt/access.txt 是输入的文件地址   /aiatt/output/result 输出结果地址

这个两个地址都是hdfs 的地址 另外要注意重复执行任务输出地址不能一致，不然会报错。执行结果如下图：

最后我们刷新刚才的hdfs文件查看的地址查看计算结果

到这里就结束了这个实验主要是想让未接触过hadoop的体验一下，如果真的想学习的话推荐《Hadoop大数据开发基础》这本书，我就是看这本书自学的，虽然这本书有几个小错误但是还是不错的入门书

posted @ 2021-08-23 18:57 时光城主阅读(165) 评论(0) 收藏举报

刷新页面返回顶部

时光城主

Centos8.3、hadoop-2.6.4 简单的日志分析实验

公告