Hadoop 日记-第一天，安装和部署Hadoop

毕竟也是有时间去弄大数据了。现在讲一下如何部署，也是帮助新手如何使用吧。

首先说下准备工作，本文只限于使用单机的测试环境配置，没有做多机的配置。

同时，本文使用的版本，现在介绍一下，是cdh5，你百度一下cdh5就出现下载网址了。然后下那个hadoop开头，包的容量较大的那个下载下来。

使用的java jdk是 Java 1.7

所以你要在windows下安装hadoop。你就需要使用vitual box或者vmware这样的虚拟化技术来模拟安装Linux系统。

本人采用的ubuntu 14.0.7 kylin,不建议使用cgwin这样的windows终端，会让你安装时候崩溃的，而且巨慢的下载速度，会让你疯掉的。

本人采用了vmware 11 下安装 linux。

这里对linux 的安装，就不在赘述了，给个网址，大家可以去学习下。http://jingyan.baidu.com/article/14bd256e0ca52ebb6d26129c.html

我这里提一下，有个问题会在新手上产生，你会发现提示你打开你BIOS上的虚拟化技术才能安装。这时候你就上开机启动，进入BIOS，然后把其disable 设置成enable就可以了

你安装完vmware之后，一定要记得安装vtools，要不然你对于文件复制粘贴你会很麻烦的，而且不能交互。

安装完vtools之后，你就可以将你windows下的东西直接复制给linux了。

简单方便。

那么下面我们简单介绍一下如何安装hadoop2.3.0

主要是因为我使用的是cdh5.0版本的集成。

若你没有配置java的jdk那么就需要将jdk和cdh5两个包拷在linux下的文件夹中。

建议将这两个包移动在你的/home/user这个目录下，这样方便管理。

例如本例是将两个包复制在当前用户的Documents文件夹下了。

因此需要先建立一个新的文件夹在当前目录下。

mkdir /home/user名/hadoop/

然后利用 ls /home/user名/ 可以查看是否创建成功

之后将两个文件包挪过来，利用命令

cp -f /home/jinchm/Documents/jdk-7u79-linux-i586.tar.gz /home/jinchm/hadoop

cp -f /home/jinchm/Documents/hadoop-2.3.0-cdh5.1.5.tar.gz /home/jinchm/hadoop

之后我们要进行解压操作了。

解压之前，若我们不登录超级用户权限的话，默认是没有权限的。

因此我们需要把文件夹权限打开，利用命令

chmod -R 777 /home/jinchm/hadoop

然后进入hadoop这个文件夹

cd /home/jinchm/hadoop/

之后我们就可以解压这两个文件了。

首先解压Java的配置文件啊。

tar -zxvf /home/jinchm/hadoop/jdk-7u79-linux-i586.tar.gz

然后解压 cdh5的包

tar -zxvf /home/jinchm/hadoop//hadoop-2.3.0-cdh5.1.5.tar.gz

之后我们用ls 就可以看见当前的文件夹里面的内容

此时我们就准备工作做完了，之后我们就是配置hadoop的hdfs和Yarn了

现在让我们进入hadoop-2.3这个文件夹

之后我们查看etc/hadoop的配置文件

首先更改第一个配置文件 vi etc/hadoop/hadoop-env.sh

vi 编辑器的使用呢，上百度查一查吧。很费事的。在使用hadoop前，应该熟悉下linux使用。

加入这么一行

然后保存。

之后更改第二个配置文件 vi etc/hadoop/mapred-site.xml.template

加入

之后更改第三个配置文件 vi etc/hadoop/core-site.xml

之后更改第四个配置文件

vi etc/hadoop/hdfs-site.xml

说明一下啊，后两个<property></property>中的文件是虚拟机需要配的，因为虚拟机使用时候会在temp目录中临时储存，当你虚拟机重启，就会把这两个文件夹刷新掉，就是每次都需要格式化

而真机不需要配后两个。

之后配置第五个文件

vi etc/hadoop/yarn-site.xml

第六个配置文件是可配可不配的就是 vi etc/hadoop/slaves

以上五个文件配置好，就可以启动Hadoop了，sbin/start-all.sh 可以把hadoop所有的服务都启动

但不推荐这么做，第一，即使全启动也是一项一项启动，而不是，同时

第二，上一项没启动成功，接下来也会运行，不利于排错，因此启动时候，建议，一项项启动，利于排错。

sbin/start-dfs.sh也是可以将HDFS全启动，也是不推荐，因此我们先启动namenode节点

第一次配置节点时候需要对其进行格式化，仅限第一次，若以后再次使用，运行该命令，则会格式化节点上原有的数据

bin/hadoop namenode -format

格式化之后，会在你的/home/jinchm/hadoop文件夹下生成一个dfs文件夹

运行sbin/hadoop-daemon.sh start namenode，启动节点

如何查看呢，就用借用Java包中的jps

运行

发现多了一个NameNode进程。即成功

利用端口50070，可以查看是否启动，如图

现在我们可以启动DataNode节点了

sbin/hadoop-daemon.sh start datanode

之后我们启动yarn，这时候我们可以一次将Yarn全启动

sbin/start-yarn.sh

若成功启动后，我们通过JPS看到5个进程。而不是四个。

若你使用Ubuntu，很有可能会遇到4个进程的情况，就是没有最后一个NodeManager的情况。

也就是启动yarn时候会遇到

ssh : connect to host localhost port 22:Connection refused

造成这种情况的一大原因就是缺少SSH，因为Ubuntu默认是不安装的，所以我们需要

运行 ps -e | grep ssh，查看是否有sshd进程

如果没有，说明server没启动，通过 /etc/init.d/ssh -start 启动server进程，如果提示ssh不存在那么就是没安装server

通过 sudo apt-get install openssh-server命令安装即可

之后再重启Yarn，用JPS查看，即可。

也可以借用8088端口访问Yarn，如图

关闭HDFS和YARN的时候我们可以使用sbin/stop-all.sh

以上就是在VM ware上配置Ubuntu上配置单机的HDFS和YARN的基本操作。要是遇到其他问题，可以在百度或者GOOGLE上进行查找。一般都很好解决

posted @ 2015-07-11 11:43 PhD_King 阅读(662) 评论(0) 收藏举报

刷新页面返回顶部

PhD_King

Hadoop 日记-第一天，安装和部署Hadoop

ssh : connect to host localhost port 22:Connection refused

公告