Hadoop伪分布式模式安装

操作系统: CentOS7

jdk: jdk-8u221

hadoop: 2.7.3

一. 卸载系统自带jdk并安装准备好的jdk

1. 查看: rpm -qa | grep jdk

2.卸载: yum -y remove xxxx

3.安装jdk1.8

　　解压jdk包

　　tar zxvf jdkxxxx.tar.gz

　

　　重命名: mv jdk1.8.0_221/ jdk1.8

　　或者给jdk目录创建软连接 ln -s jdk1.8 jdk ( 用jdk 代替jdk1.8)

　　配置jdk环境变量(我装在全局下，所以修改的配置文件是/etc/profile,如果是普通用户则修改 ~/.bashrc)

　　

　　使配置生效: source /etc/profile (普通用户 source ~./bashrc)

　　使用java -version 可以查看安装的jdk版本

　　

4. 解压hadoop压缩包

　　tar zxvf hadoopxxxx.tar.gz

　　修改名字为hadoop2.7: mv hadoop-2.7.3 hadoop2.7

　　

5. 配置环境变量

　　vi profile

　　

　 source /etc/profile

　　测试一下

　　

　成功了, 系统找到了hdfs命令在的目录

6.伪分布式模式

　　安装前的准备

　　1. 修改一个好记的主机名 vi /etc/hostname 修改完重启 sudo reboot

2. 设置ssh免密登录

　　　　生成密钥: ssh-keygen -t rsa

　　　　本地验证: ssh-copy-id -i id_rsa id_rsa.pub jkl1

　　　　验证一下

　　　　

配置伪分布式的五个文件: 在 HADOOP_HOME/etc/hadoop/下

1.vi hadoop-env.sh

2.vi core-site.xml

3.vi hdfs-site.xml

　　

4.　cp mapred-site.xml.template mapred-site.xml

　　vi mapred-site.xml

　　

5. vi yarn-site.xml

　　

7.格式化HDFS

　　hdfs namenode -format

注意: 格式化hdfs只需要一次, 下次启动不要再格式化,否则会确实DataNode进程.

8.启动Hadoop

　　start-dfs.sh

　　查看进程jps

　　成功启动了hadoop

9. 启动yarn

　　strat-yarn.sh

　　查看进程多出两个　　

成功启动了yarn

缺少哪个进程, 在hadoop目录下的logs里面查看错误信息

　start-all.sh= start-dfs.sh+start-yarn.sh

10 . 查看web端界面输入localhost:50070可查看NameNode和DataNode的信息

输入localhost:50090可查看SecondNameNode的信息

输入localhost:8042 可查看yarn下所有的应用程序(端口号不一定 ,看日记是启动的哪个端口)

11 .测试mapreduce程序

　　使用mapreduce 对txt文件进行词频分析

　　1.在linux中创建文件data.txt. 里面随意输入内容

　　

　　2.在hdfs创建input文件夹, 并把data.txt上传至hdfs

　　在hdfs上创建input文件夹: hdfs dfs -mkdir /input

　　　上传data.txt到input : hdfs dfs -put data.txt /input

　　　　查看是否上传成功: hdfs dfs -ls -R / (-R 以树状的形式查看目录结构)

　　　　

　 3. 运行mapreduce实例, 这类用内置的wordcount程序来测试一下hadoop是否能正常运行

　　　　jar包位置: $HADOOP_HOME/share/hadoop/mapreduce

　　　　运行命令: hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output (输出文件夹不能已存在)

　　4. 查看结果

　　　　

　　符合预期结果. Hadoop伪分布式模式搭建成功!

关闭Hadoop : stop-all.sh

posted @ 2020-07-20 01:29 jkluo 阅读(263) 评论(0) 收藏举报

刷新页面返回顶部