Hadoop的伪分布式和完全分布式环境搭建
一、Hadoop伪分布式配置
准备工作
1、安装好CentOS7.4虚拟机、xshell,关闭掉CentOS的firewalld、sexlinux
2、下载好CentOS使用的jdk1.8和hadoop2.7.7的tar.gz包
配置静态ip地址
进入到 /etc/sysconfig/network-scripts,使用vi编辑器 编辑ifcfg-ens33
下载下载工具wget 配置ali的yum源
yum install wget -y
wget http://mirrors.aliyun.com/repo/Centos-7.repo
规定文件安装包位置、安装位置
cd /opt
mkdir install software test other
解压缩安装jdk、hadoop
在xshell连接上虚拟机,通过 yum install lrzsz 安装转机工具
将下载好的jdk、hadoop转机到虚拟机的 /opt/install文件夹
通过 tar -zxvf 将两个tar.gz包解压 通过 mv 命令将解压的文件夹移动到software文件夹下
vim /etc/profile 配置环境变量
配置完成后 使用source /etc/profile 使配置生效
java -version查看Java版本 查看java是否配置好
修改主机名
hostnamectl set-hostname hadoop01
修改主机映射
vim /etc/hosts #编辑主机映射文件
192.168.5.22 hadoop01
Hadoop的配置
hadoop-env.sh
cd /opt/software/hadoop-2.7.7 #进入hadoop-2.7.7目录
vim etc/hadoop/hadoop-env.sh #编辑配置文件hadoop-env.sh
export JAVA_HOME=/opt/software/jdk1.8 #修改25行
export HADOOP_CONF_DIR=/opt/software/hadoop-2.7.7/etc/hadoop #修改33行
core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://主机名:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/software/hadoop-2.7.7/tmp</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>主机名</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
格式化文件系统
hadoop namenode -format
启动Hadoop
hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode
查看日志
/opt/software/hadoop-2.7.7/logs
WEB端查看
http://配置的静态ip:50070 #查看NameNode的状态
http://配置的静态ip:50075 #查看DataNode的状态
http://配置的静态ip:50090 #查看SecondaryNameNode的状态
二、配置完全分布式hadoop
Hadoop中HDFS系统的脚本指令
start-all.sh 一次性打开所有5个软件 namenode datanode secondarynamenode resourcemanager nodemanager
stop-all.sh 一次性关闭所有5个软件
start-dfs.sh 一次性打开HDFS的3个软件 namenode datanode secondarynamenode HDFS开启服务
stop-dfs.sh 一次性关闭HDFS的3个软件 namenode datanode secondarynamenode HDFS关闭服务
start-yarn.sh 一次性打开yarn2个软件 resourcemanager nodemanager
stop-yarn.sh 一次性关闭yarn2个软件
hadoop-daemon.sh start 软件名 开启(namenode datanode secondarynamenode)其中一个软件
hadoop-daemon.sh stop 软件名 停止(namenode datanode secondarynamenode)其中一个软件
yarn-daemon.sh start 软件名 开启(resourcemanager nodemanager )其中一个软件
配置步骤
一、配置一台宿主机
详情见上方伪分布式配置需求
二、配置从属机
①、将配好的主机的虚拟机克隆一份,将克隆出来的虚拟机作为从属机
②、从属机上配置好静态的ip地址,修改主机名
③、在从属机和主机上都配置好ip映射(/etc/hosts文件)
④、删掉从属机hadoop的tmp文件夹下的dfs文件夹所有内容
⑤、在主机上配置好免密登录
先执行ssh-keygen 生成公钥私钥
再执行ssh-copy-id hadoop01 和ssh-copy-id hadoop02 送出私钥
⑥、在主机上执行hdfs namenode -format 格式化namenode
⑦、修改主机的slaves文件(在 安装目录/etc/hadoop/下)分行添加hadoop01、hadoop02
⑧、执行命令start-dfs.sh启动HDFS
⑨、进入网页 hadoop01IP地址:50070查看配置好的HDFS
三、ip:50070中各项数值含义


浙公网安备 33010602011771号