代码改变世界

window7下hadoop2.4.1单机模式配置测试

2014-07-22 17:50  Loull  阅读(570)  评论(0)    收藏  举报

第一次:
在windows下单机hadoop调试:
1、解压hadoop
2、下载hadoop-commin-2.2.0.zip后解压,放到hadoop/bin下,重复的不覆盖
  由于没找到对应的2.4.1,用这个版本也是可以。
3、设置环境变量。
  java的环境变量一般已经设置了,就不需要动了。
  设置hadoop的环境变量,copy以下到cmd窗口就行:
    set HADOOP_HOME=C:\tools\hadoop-2.4.1\hadoop-2.4.1-single
    set path=%path%;%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin

4、运行测试demo:(在C:\tools\hadoop-2.4.1\hadoop-2.4.1-single目录下创建tmpdata\in目录,放几个文档进去)
  hadoop jar share\hadoop\mapreduce\hadoop-mapreduce-examples-2.4.1.jar wordcount tmpdata\in tmpdata\out1

 


之后:
1、设置环境变量,在cmd里面输入如下:
set HADOOP_HOME=C:\tools\hadoop-2.4.1\hadoop-2.4.1-single
set path=%path%;%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin
2、运行测试的demo:
hadoop jar share\hadoop\mapreduce\hadoop-mapreduce-examples-2.4.1.jar wordcount tmpdata\in tmpdata\out1

 

hadoop单机运行可以不打包成jar: hadoop 主类名 [输入输出目录等参数]
相比用java运行,使用hadoop命令会自动添加hadoop库文件到classpath

输出命名方式: 
map输出:part-m-nnnnn 
reduce输出:part-r-nnnnn
其中nnnnn为分块序号,从0开始。 
分布式下Map的输出是在硬盘上而不是hdfs,因为它作为中间结果是临时的,一旦写入hdfs就会分布式存储并备份。

 


 

example中的样例程序说明

 

好处:

不需要编辑配置文件,不用搞ssh,在单目录下不需要修改任何hadoop的文件就可以运行。

 

参考:

Hadoop单机模式配置

Hadoop伪分布模式配置