Ubuntu/CentOS hadoop-2.x Cluster Setup

一、配置hosts文件
#CentOS6.x
vim /etc/sysconfig/network
   HOSTNAME=master

#Ubuntu/CentOS7.x
sudo vim /etc/hostname
master
sudo hostname slaves01

sudo vim /etc/hosts
ip1 master
ip2 slave1
ip3 slave2
此处特别注意下，我自己由于这个地方出问题导致Hadoop集群延迟启动2/3天，那种感觉实在是难受...
问题是：如果是在master上操作的话 ip1 必须是 master 的内网ip ,同理slaves上也是一样，自己的主机上的IP要改成内网IP，其他的要用外网IP。
补充网络知识：
服务器   公网ip可以用于域名解析ip，服务器远程登录ip，是最主要的服务器ip地址。
   内网ip不能用于域名解析,不可以直接用于服务器远程登录，其主要作用是：跟当前帐号下的其他同集群的机器通信。
一些小型企业或者学校，通常都是申请一个固定的IP地址，然后通过IP共享（IP Sharing），使用整个公司或学校的机器都能够访问互联网。而这些企业或学校的机器使用的IP地址就是内网IP，内网IP是在规划IPv4协议时，考虑到IP地址资源可能不足，就专门为内部网设计私有IP地址（或称之为保留地址），一般常用内网IP地址都是这种形式的：10.X.X.X、
172.16.X.X-172.31.X.X、192.168.X.X等。需要注意的是，内网的计算机可向Internet上的其他计算机发送连接请求，但Internet上其他的计算机无法向内网的计算机发送连接请求。
   公网IP就是除了保留IP地址以外的IP地址，可以与Internet上的其他计算机随意互相访问。我们通常所说的IP地址，其实就是指的公网 IP。互联网上的每台计算机都有一个独立的IP地址，该IP地址唯一确定互联网上的一台计算机。这里的IP地址就是指的公网IP地址。
   其实，互联网上的计算机是通过“公网IP＋内网IP”来唯一确定的，就像很多大楼都是201房间一样，房间号可能一样，但是大楼肯定是唯一的。公网IP地址和内网IP地址也是同样，不同企业或学校的机器可能有相同的内网IP地址，但是他们的公网IP地址肯定不同。
   那么这些企业或学校的计算机是怎样IP地址共享的呢？
这就需要使用NAT（Network Address Translation,网络地址转换）功能。当内部计算机要连接互联网时，首先需要通过NAT技术，将内部计算机数据包中有关IP地址的设置都设成NAT主机的公共IP地址，然后再传送到Internet，虽然内部计算机使用的是私有IP地址，但在连接Internet时，就可以通过NAT主机的NAT技术，将内网我IP地址修改为公网IP地址，如此一来，内网计算机就可以向Internet请求数据了。
   此处master的IP对于slaves是公网IP，但是对于master自己应该用内网IP—真正的对应自己的机器的ifconfig。

二、建立hadoop运行帐号
sudo groupadd hadoop
sudo useradd -s /bin/bash -d /home/hadoop -m hadoop -g hadoop
sudo passwd hadoop

为hadoop添加sudo权限
#Ubuntu
sudo adduser hadoop sudo
#CentOS
visudo
   root    ALL=(ALL)       ALL
   hadoop ALL=(ALL)       ALL

三、配置ssh免密码连入
ssh master
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slaves01

关闭防火墙
#Ubuntu
sudo ufw disable

#CentOS
6.x：
sudo service iptables stop   # 关闭iptables
sudo chkconfig iptables off # 禁止iptables开机自启
7.x:
systemctl stop firewalld.service    # 关闭firewall
systemctl disable firewalld.service # 禁止firewall开机启动

四、安装Java和Hadoop
sudo mkdir -p /data/service
sudo chown -R hadoop:hadoop /data

sudo vim /etc/profile.d/java-env.sh
source /etc/profile.d/java-env.sh

hdfs namenode -format

hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/hadoop

hdfs dfs -put /etc/hadoop input

hadoop jar /data/service/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.2.jar grep input output 'dfs[a-z.]+'

利用基准评测程序测试Hadoop集群
1)使用TestDFSIO来评测HDFS，它用一个MapReduce作业并行地读或写文件。各个文件在独立的map任务上被读或写;map任务输出一些针对刚刚处理完的文件的统计信息;reduce任务汇总这些统计信息，并产生一份总结报告。
写：
hadoop jar /data/service/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.8.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 10
读：
hadoop jar /data/service/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.8.2-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 10
清：
hadoop jar /data/service/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.8.2-tests.jar TestDFSIO -clean
2)使用Sort程序评测MapReduce，它用一个MapReduce程序对输入数据做部分排序。
   测试步骤：
       1）创建随机数据。使用RandomWriter来产生随机数。
       2）执行排序。
       3）验证结果。
3）其他基准评测程序
MRBench（使用mrbench）会多次运行一个小型作业。与sort基准不同，该基准的主要目地是检验小型作业能否快速响应
NNBench（使用nnbench）测试namenode硬件的加载过程
Gridmix是一个基准评测程序套装。通过模拟一些真实常见的数据访问模式，Gridmix能逼真地为一个集群的负载建模。

posted on 2017-12-13 15:33 唐先生_DowneyJr 阅读(181) 评论(0) 收藏举报

刷新页面返回顶部

唐先生_DowneyJr

Ubuntu/CentOS hadoop-2.x Cluster Setup

导航

公告