hadoop学习之单节点环境搭建及运行实例
- ubuntu,hadoop使用linux系统作为系统开发环境,因此我们需要安装linux内核的系统如red hat,ubuntu等,在这里我安装了ubuntu 10.10。
- jdk-6u27-linux-i586.bin 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u27-download-440405.html
- hadoop-0.2 0.204.0.tar.gz 下载地址:http://hadoop.apache.org/common/releases.html#Download
- 将java安装到:opt/java 目录下。步骤:将下载好的安装文件复制的该目录下,然后使用命令自动安装,命令如下
cp jdk-6u27-linux-i586.bin /opt/java cd /opt/java ./jdk-6u27-linux-i586.bin
- 解压hadoop到:opt/hadoop 目录下。解压命令:tar zxvf hadoop-0.20.204.0.tar.gz
- 配置环境变量:在终端中用gedit打开/etc/profile文件夹: sudo gedit /etc/profile,会出现如下窗口,添加以下内容,红笔圈的,需根据实际修改,之后保存并关闭gedit,使用source /etc/profile 命令重新导入该文件。

- 验证环境是否搭建成功(均在终端输入):javac和hadoop命令出现下图


现在我们开始运行第一个hadoop程序:wordcount,这个程序统计文档中单词出现的次数。首先是在自己的计算机上运行(可看做单台计算机的集群,以后需要配置多节点集群)。
在hadoop安装目录opt/hadoop中,可以找到hadoop-examples-0.20.204.0.jar,里面封装了一些测试的例子,进入该目录,运行下面的命令:
bin/hadoop jar hadoop-examples-0.20.204.00.jar wordcount input output
more output/*
第一条命令: 参数"jar"是指运行jar程序,"wordcount"指运行jar程序中的wordcount程序,“input”是一个目录名,里面应该存放着很多待处理的文档,“output”指文件输出目录,程序结束后会有一个结果文件。
第二个命令用于查看结果。
浙公网安备 33010602011771号