hadoop学习之单节点环境搭建及运行实例

  1. 软件要求
  2. 环境配置
  3. 运行第一个hadoop程序:wordcount

----软件要求

  1. ubuntu,hadoop使用linux系统作为系统开发环境,因此我们需要安装linux内核的系统如red hat,ubuntu等,在这里我安装了ubuntu 10.10。
  2. jdk-6u27-linux-i586.bin 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u27-download-440405.html
  3. hadoop-0.2 0.204.0.tar.gz 下载地址:http://hadoop.apache.org/common/releases.html#Download

----环境配置

  1. 将java安装到:opt/java 目录下。步骤:将下载好的安装文件复制的该目录下,然后使用命令自动安装,命令如下
    cp jdk-6u27-linux-i586.bin /opt/java
    cd /opt/java
    ./jdk-6u27-linux-i586.bin 

     

  2. 解压hadoop到:opt/hadoop 目录下。解压命令:tar zxvf hadoop-0.20.204.0.tar.gz
  3. 配置环境变量:在终端中用gedit打开/etc/profile文件夹: sudo gedit /etc/profile,会出现如下窗口,添加以下内容,红笔圈的,需根据实际修改,之后保存并关闭gedit,使用source /etc/profile 命令重新导入该文件。
  4. 验证环境是否搭建成功(均在终端输入):javac和hadoop命令出现下图

     

----运行第一个hadoop程序:wordcount

  现在我们开始运行第一个hadoop程序:wordcount,这个程序统计文档中单词出现的次数。首先是在自己的计算机上运行(可看做单台计算机的集群,以后需要配置多节点集群)。  

  在hadoop安装目录opt/hadoop中,可以找到hadoop-examples-0.20.204.0.jar,里面封装了一些测试的例子,进入该目录,运行下面的命令:

bin/hadoop jar hadoop-examples-0.20.204.00.jar wordcount input output
more output/*

  第一条命令: 参数"jar"是指运行jar程序,"wordcount"指运行jar程序中的wordcount程序,“input”是一个目录名,里面应该存放着很多待处理的文档,“output”指文件输出目录,程序结束后会有一个结果文件。

    第二个命令用于查看结果。

 

posted @ 2012-08-19 10:22  52NLP  阅读(352)  评论(0)    收藏  举报