CentOS6.5x64搭建Hadoop环境

　　首先总结一下之所以被搭建大数据环境支配的原因：浮躁。总是坐不住，总是嫌视频太长，总是感觉命令太杂太多，所以就不愿去面对。

　　在抖音上听到一句话：“为什么人们不愿吃学习的苦而能吃社会的苦？因为学习的苦需要主动去吃，所以没人愿意，到了社会上，社会的苦不得不吃。”

　　有些时候，有些坎坷，我们必须要亲身经历，就算你逃避，也终有一天会面对它。就像我，觉得教科书文字枯燥，不如看视频跟着敲直接。但是绕了一圈，终究我还是回归到了教科书。

　　我发现白彦峰老师编的这本《大数据技术基础实验教程》真是一本神书！只要，你一步一步跟着做，别跑偏，保准没有Bug。

大致流程我分成了六件事情：

第一件事：配置VMWare Workstation的NAT模式的IP

需要资源：VMWare Workstations版本9及以上

这需要你掌握以下几个名词：

　　1. 网络适配器

　　　　1.1 桥接模式

　　　　1.2 NAT模式

　　　　1.3 仅主机模式

　　2. 子网IP

　　3. 子网掩码

　　4. 网关

　　5. DNS

第二件事：手动配置IP

需要资源：CentOS6.5x64位操作系统

你需要掌握以下几个名词：

　　1. Linux操作系统

　　2. 32位、64位操作系统及应用软件

　　3. IPv4协议

　　　　3.1 DHCP获取IP

　　　　3.2 手动设置IP

　　4. /etc/hosts

　　5. /etc/sysconfig/network

第三件事：安装JDK

需要资源：jdk1.7或jdk1.8或jdk11x64位安装包

你需要掌握以下几个名词：

　　1. Oracle公司

　　2. JDK版本

　　3. 环境变量

　　　　3.1 ~/.bash_profile、~/.bashrc、/etc/profile的区别

　　　　3.2 JAVA_HOME 和 PATH 的关系

第四件事：SSH免密登录

需要资源：无

你需要掌握以下几个名词：

　　1. ssh协议

　　2. 授权文件authorized_keys及其文件权限600

　　3. 私钥id_rsa及公钥id_rsa.pub

第五件事：安装配置Hadoop

需要资源：Hadoop-2.*x64位二进制安装包

你需要掌握以下几个名词：

　　1. Apache组织

　　2. Hadoop软件文件组成

　　3. 两个环境变量配置文件

　　　　3.1 Hadoop中配置JAVA环境变量文件：hadoop-env.sh

　　　　3.2 Yarn中配置JAVA环境变量文件 : yarn-env.sh

　　4. 四个必要的配置文件

　　　　4.1 核心组件配置文件： core-site.xml

　　　　4.2 文件系统配置文件： hdfs-site.xml

　　　　4.3 yarn配置文件： yarn-site.xml

　　　　4.4 MapReduce配置文件：mapred-site.xml

　　5. 一个节点文件：slaves

　　6. ssh跨主机递归复制文件命令 scp -r

第六件事：启动集群

资源：三个主机

你需要掌握以下几个名词：

　　1. HDFS

　　2. namenode 的格式化

　　3. start-dfs.sh 命令

　　4. start-yarn.sh 命令

　　5. jps命令

　　　　namenode

　　　　seconderynamenode

　　　　datanode

　　　　sourcemanager

　　　　nodemanager

　　　　jps

　　5. 端口50070、9000、18088

　　6. MapReduce实例

接下来说说我和Bug斗争的心酸血泪史（深夜胡话，只有我自己能看懂，建议略过）：

　　第一件事：配置VMWare Workstation的NAT模式的IP

　　一开始我没有配workstation的IP，觉得默认就可以了，操作黑盒子的结果就是导致无知。

后来，我知道了1. 网络适配器，是一个驱动（软件），我Windows的网就经常坏掉，然后经常去禁用网络适配器。

后来，我知道了1.1 桥接模式、1.2 NAT模式、1.3 仅主机模式这三个网络适配器分配IP的方式。

后来，我知道了2. 子网IP、3. 子网掩码、4. 网关、5. DNS这几个是怎样结合起来构建整个网络系统的。

　　第二件事：手动配置IP

　　由于一开始没有配workstation的IP，直接导致了我没有去操作系统里面进行手动配置IP地址，同样是操作黑盒子的结果就是导致无知。

后来，我知道了3. IPv4协议

后来，我知道了3.1 DHCP获取IP与3.2 手动设置IP之间的区别

后来，我知道了4. /etc/hosts与5. /etc/sysconfig/network两个文件的作用

顺带了解了一下1. Linux操作系统与2. 32位、64位操作系统及应用软件的爱恨情仇

　　第三件事：安装JDK

　　由于我学习JAVA的时候就了解过1. Oracle公司、2. JDK版本、3. 环境变量，所以在这件事上没吃多大的亏

唯一就是Windows上只分用户、系统两个环境变量然而Linux中分三个环境变量：3.1 ~/.bash_profile、~/.bashrc、/etc/profile的区别

　　第四件事：SSH免密登录

　　同样是因为我之前学习Git的时候了解过1. ssh协议、2. 授权文件authorized_keys及其文件权限600、3. 私钥id_rsa及公钥id_rsa.pub 所以在这件事上是最轻松的。

这里有个文件权限600，本可以说上一段的，但这里只需要背住就行，authorized_keys文件的权限只能是600，否则文件不管用。

　　第五件事：安装配置Hadoop

　　这件事先是从零开始听说Hadoop，

后来，我才知道Hadoop属于1. Apache

由于我跟着视频操作，老师带着了解过2. Hadoop软件文件组成及文件配置，还有ssh连接与文件传输，

所以这件事上也相对轻松，不过有个坑是由于我的不小心，把yarn-site.xml中配置的<value>master:18088 </value> 端口号后面都误加了一个空格，导致yarn的resourcemanager无法启动，

找了半天，最后还是找到日志文件，才看出一些端倪。查看启动日志的方式是：

cd hadoop-2.8.5/logs/

tail -500 yarn-jmxx-resourcemanager-master.log

日志告诉我说，number format error ，就一个number提醒了我，是不是端口号写的有问题，一看果真是多了一个空格。

在此感激教会我看日志的人，其博客地址：https://blog.csdn.net/u010180815/article/details/79070870?utm_source=blogxgwz2

　　第六件事：启动集群

　　最后了，说两点：

　　一开始由于没有安装书上的配置方法配置，导致hdfs生成的data、logs文件总是权限不足，这就会导致namenode无法启动需要先把data、logs文件夹删除，然后再进行namenode格式化，才能启动。

　　还有一件事就是，电脑配置不高的，跑MapReduce的时候，参数设置成5-10就可以了，否则一个计算pi，需要跑上20分钟。

结尾：

　　搭建环境这么麻烦，真的不想再让你们遭罪，可以联系我，找我要搭建好的镜像资源。

　　能面谈的面谈，面谈不了的发我QQ邮箱找我要：

　　424171723@qq.com

出门记得点赞哟！

posted @ 2018-10-18 01:37 littlecurl 阅读(388) 评论(0) 收藏举报

刷新页面返回顶部

Almost_Lover

CentOS6.5x64搭建Hadoop环境

第一件事：配置VMWare Workstation的NAT模式的IP

第二件事：手动配置IP

第三件事：安装JDK

第四件事：SSH免密登录

第五件事：安装配置Hadoop

第六件事：启动集群

接下来说说我和Bug斗争的心酸血泪史（深夜胡话，只有我自己能看懂，建议略过）：

结尾：

公告