Hadoop 日记-第一天,安装和部署Hadoop

毕竟也是有时间去弄大数据了。现在讲一下如何部署,也是帮助新手如何使用吧。

首先说下准备工作,本文只限于使用单机的测试环境配置,没有做多机的配置。

同时,本文使用的版本,现在介绍一下,是cdh5,你百度一下cdh5就出现下载网址了。然后下那个hadoop开头,包的容量较大的那个下载下来。

使用的java jdk是 Java 1.7

所以你要在windows下安装hadoop。你就需要使用vitual box或者vmware这样的虚拟化技术来模拟安装Linux系统。

本人采用的ubuntu 14.0.7 kylin,不建议使用cgwin这样的windows终端,会让你安装时候崩溃的,而且巨慢的下载速度,会让你疯掉的。

本人采用了vmware 11 下安装 linux。

这里对linux 的安装,就不在赘述了,给个网址,大家可以去学习下。http://jingyan.baidu.com/article/14bd256e0ca52ebb6d26129c.html

我这里提一下,有个问题会在新手上产生,你会发现提示你打开你BIOS上的虚拟化技术才能安装。这时候你就上开机启动,进入BIOS,然后把其disable 设置成enable就可以了

你安装完vmware之后,一定要记得安装vtools,要不然你对于文件复制粘贴你会很麻烦的,而且不能交互。

安装完vtools之后,你就可以将你windows下的东西直接复制给linux了。

简单方便。

那么下面我们简单介绍一下如何安装hadoop2.3.0

主要是因为我使用的是cdh5.0版本的集成。 

若你没有配置java的jdk那么就需要将jdk和cdh5两个包拷在linux下的文件夹中。

建议将这两个包移动在你的/home/user这个目录下,这样方便管理。

例如本例是将两个包复制在当前用户的Documents文件夹下了。

因此需要先建立一个新的文件夹在当前目录下。

mkdir /home/user名/hadoop/

然后利用 ls /home/user名/   可以查看是否创建成功

 

 

之后将两个文件包挪过来,利用命令

cp -f /home/jinchm/Documents/jdk-7u79-linux-i586.tar.gz /home/jinchm/hadoop

cp -f /home/jinchm/Documents/hadoop-2.3.0-cdh5.1.5.tar.gz /home/jinchm/hadoop

之后我们要进行解压操作了。

解压之前,若我们不登录超级用户权限的话,默认是没有权限的。

因此我们需要把文件夹权限打开,利用命令

chmod -R 777 /home/jinchm/hadoop

然后进入hadoop这个文件夹

cd /home/jinchm/hadoop/

之后我们就可以解压这两个文件了。

首先解压Java的配置文件啊。

tar -zxvf /home/jinchm/hadoop/jdk-7u79-linux-i586.tar.gz

然后解压 cdh5的包

tar -zxvf /home/jinchm/hadoop//hadoop-2.3.0-cdh5.1.5.tar.gz

之后我们用ls 就可以看见当前的文件夹里面的内容

此时我们就准备工作做完了,之后我们就是配置hadoop的hdfs和Yarn了

现在让我们进入hadoop-2.3这个文件夹

之后我们查看etc/hadoop的配置文件

首先更改第一个配置文件 vi etc/hadoop/hadoop-env.sh

vi 编辑器的使用呢,上百度查一查吧。很费事的。在使用hadoop前,应该熟悉下linux使用。

加入这么一行

然后保存。

之后更改第二个配置文件 vi etc/hadoop/mapred-site.xml.template

加入

之后更改第三个配置文件 vi etc/hadoop/core-site.xml

之后更改第四个配置文件

vi etc/hadoop/hdfs-site.xml

说明一下啊,后两个<property></property>中的文件是虚拟机需要配的,因为虚拟机使用时候会在temp目录中临时储存,当你虚拟机重启,就会把这两个文件夹刷新掉,就是每次都需要格式化

而真机不需要配后两个。

之后配置第五个文件

 vi etc/hadoop/yarn-site.xml

第六个配置文件是可配可不配的就是 vi etc/hadoop/slaves

以上五个文件配置好,就可以启动Hadoop了,sbin/start-all.sh 可以把hadoop所有的服务都启动

但不推荐这么做,第一,即使全启动也是一项一项启动,而不是,同时

第二,上一项没启动成功,接下来也会运行,不利于排错,因此启动时候,建议,一项项启动,利于排错。

sbin/start-dfs.sh也是可以将HDFS全启动,也是不推荐,因此我们先启动namenode节点

第一次配置节点时候需要对其进行格式化,仅限第一次,若以后再次使用,运行该命令,则会格式化节点上原有的数据

bin/hadoop namenode -format

格式化之后,会在你的/home/jinchm/hadoop文件夹下生成一个dfs文件夹

运行sbin/hadoop-daemon.sh start namenode,启动节点

如何查看呢,就用借用Java包中的jps

运行

发现多了一个NameNode进程。即成功

利用端口50070,可以查看是否启动,如图

现在我们可以启动DataNode节点了

sbin/hadoop-daemon.sh start  datanode

之后我们启动yarn,这时候我们可以一次将Yarn全启动

sbin/start-yarn.sh

若成功启动后,我们通过JPS看到5个进程。而不是四个。

若你使用Ubuntu,很有可能会遇到4个进程的情况,就是没有最后一个NodeManager的情况。

也就是启动yarn时候会遇到

ssh : connect to host localhost port 22:Connection refused

造成这种情况的一大原因就是缺少SSH,因为Ubuntu默认是不安装的,所以我们需要

运行 ps -e | grep ssh,查看是否有sshd进程

如果没有,说明server没启动,通过 /etc/init.d/ssh -start 启动server进程,如果提示ssh不存在 那么就是没安装server

通过 sudo apt-get install openssh-server命令安装即可

之后再重启Yarn,用JPS查看,即可。

也可以借用8088端口访问Yarn,如图

关闭HDFS和YARN的时候我们可以使用sbin/stop-all.sh

以上就是在VM ware上配置Ubuntu上配置单机的HDFS和YARN的基本操作。要是遇到其他问题,可以在百度或者GOOGLE上进行查找。一般都很好解决

posted @ 2015-07-11 11:43  PhD_King  阅读(661)  评论(0)    收藏  举报