Hadoop 日记-第一天,安装和部署Hadoop
毕竟也是有时间去弄大数据了。现在讲一下如何部署,也是帮助新手如何使用吧。
首先说下准备工作,本文只限于使用单机的测试环境配置,没有做多机的配置。
同时,本文使用的版本,现在介绍一下,是cdh5,你百度一下cdh5就出现下载网址了。然后下那个hadoop开头,包的容量较大的那个下载下来。
使用的java jdk是 Java 1.7
所以你要在windows下安装hadoop。你就需要使用vitual box或者vmware这样的虚拟化技术来模拟安装Linux系统。
本人采用的ubuntu 14.0.7 kylin,不建议使用cgwin这样的windows终端,会让你安装时候崩溃的,而且巨慢的下载速度,会让你疯掉的。
本人采用了vmware 11 下安装 linux。
这里对linux 的安装,就不在赘述了,给个网址,大家可以去学习下。http://jingyan.baidu.com/article/14bd256e0ca52ebb6d26129c.html
我这里提一下,有个问题会在新手上产生,你会发现提示你打开你BIOS上的虚拟化技术才能安装。这时候你就上开机启动,进入BIOS,然后把其disable 设置成enable就可以了
你安装完vmware之后,一定要记得安装vtools,要不然你对于文件复制粘贴你会很麻烦的,而且不能交互。
安装完vtools之后,你就可以将你windows下的东西直接复制给linux了。
简单方便。
那么下面我们简单介绍一下如何安装hadoop2.3.0
主要是因为我使用的是cdh5.0版本的集成。
若你没有配置java的jdk那么就需要将jdk和cdh5两个包拷在linux下的文件夹中。
建议将这两个包移动在你的/home/user这个目录下,这样方便管理。
例如本例是将两个包复制在当前用户的Documents文件夹下了。
因此需要先建立一个新的文件夹在当前目录下。
mkdir /home/user名/hadoop/
然后利用 ls /home/user名/ 可以查看是否创建成功

之后将两个文件包挪过来,利用命令
cp -f /home/jinchm/Documents/jdk-7u79-linux-i586.tar.gz /home/jinchm/hadoop
cp -f /home/jinchm/Documents/hadoop-2.3.0-cdh5.1.5.tar.gz /home/jinchm/hadoop
之后我们要进行解压操作了。
解压之前,若我们不登录超级用户权限的话,默认是没有权限的。
因此我们需要把文件夹权限打开,利用命令
chmod -R 777 /home/jinchm/hadoop
然后进入hadoop这个文件夹
cd /home/jinchm/hadoop/
之后我们就可以解压这两个文件了。
首先解压Java的配置文件啊。
tar -zxvf /home/jinchm/hadoop/jdk-7u79-linux-i586.tar.gz
然后解压 cdh5的包
tar -zxvf /home/jinchm/hadoop//hadoop-2.3.0-cdh5.1.5.tar.gz
之后我们用ls 就可以看见当前的文件夹里面的内容

此时我们就准备工作做完了,之后我们就是配置hadoop的hdfs和Yarn了
现在让我们进入hadoop-2.3这个文件夹

之后我们查看etc/hadoop的配置文件

首先更改第一个配置文件 vi etc/hadoop/hadoop-env.sh
vi 编辑器的使用呢,上百度查一查吧。很费事的。在使用hadoop前,应该熟悉下linux使用。
加入这么一行
然后保存。
之后更改第二个配置文件 vi etc/hadoop/mapred-site.xml.template
加入
之后更改第三个配置文件 vi etc/hadoop/core-site.xml

之后更改第四个配置文件
vi etc/hadoop/hdfs-site.xml

说明一下啊,后两个<property></property>中的文件是虚拟机需要配的,因为虚拟机使用时候会在temp目录中临时储存,当你虚拟机重启,就会把这两个文件夹刷新掉,就是每次都需要格式化
而真机不需要配后两个。
之后配置第五个文件
vi etc/hadoop/yarn-site.xml

第六个配置文件是可配可不配的就是 vi etc/hadoop/slaves
以上五个文件配置好,就可以启动Hadoop了,sbin/start-all.sh 可以把hadoop所有的服务都启动
但不推荐这么做,第一,即使全启动也是一项一项启动,而不是,同时
第二,上一项没启动成功,接下来也会运行,不利于排错,因此启动时候,建议,一项项启动,利于排错。
sbin/start-dfs.sh也是可以将HDFS全启动,也是不推荐,因此我们先启动namenode节点
第一次配置节点时候需要对其进行格式化,仅限第一次,若以后再次使用,运行该命令,则会格式化节点上原有的数据
bin/hadoop namenode -format
格式化之后,会在你的/home/jinchm/hadoop文件夹下生成一个dfs文件夹

运行sbin/hadoop-daemon.sh start namenode,启动节点
如何查看呢,就用借用Java包中的jps
运行
发现多了一个NameNode进程。即成功
利用端口50070,可以查看是否启动,如图

现在我们可以启动DataNode节点了
sbin/hadoop-daemon.sh start datanode

之后我们启动yarn,这时候我们可以一次将Yarn全启动
sbin/start-yarn.sh
若成功启动后,我们通过JPS看到5个进程。而不是四个。

若你使用Ubuntu,很有可能会遇到4个进程的情况,就是没有最后一个NodeManager的情况。
也就是启动yarn时候会遇到
ssh : connect to host localhost port 22:Connection refused
造成这种情况的一大原因就是缺少SSH,因为Ubuntu默认是不安装的,所以我们需要
运行 ps -e | grep ssh,查看是否有sshd进程
如果没有,说明server没启动,通过 /etc/init.d/ssh -start 启动server进程,如果提示ssh不存在 那么就是没安装server
通过 sudo apt-get install openssh-server命令安装即可
之后再重启Yarn,用JPS查看,即可。
也可以借用8088端口访问Yarn,如图

关闭HDFS和YARN的时候我们可以使用sbin/stop-all.sh
以上就是在VM ware上配置Ubuntu上配置单机的HDFS和YARN的基本操作。要是遇到其他问题,可以在百度或者GOOGLE上进行查找。一般都很好解决

浙公网安备 33010602011771号