摘要:
前两篇文章介绍了Hadoop Streaming框架的使用方法。由于篇幅所限,并没有介绍其中的高级使用方法,但是有一些用法还是相当常见的。今天对一些高级用法进行一个简单的说明,希望能给大家一些启发。 1 使用cacheFile分发文件 如果文件(如字典文件)存放在HDFS中,希望计算时在每个计算节点上将文件当作本地文件处理,,可以使用-cacheFile hdfs://host:port/path/to/file#linkname选项在计算节点缓存文件,Streaming程序通过./linkname访问文件。 例如: hadoop = `which hadoop` $hado... 阅读全文
posted @ 2012-01-16 23:20
~大器晚成~
阅读(19012)
评论(6)
推荐(3)
摘要:
上一篇文章介绍了Streaming的各种参数,本文具体介绍使用方法。提交hadoop任务示例:$HADOOP_HOME/bin/hadoop streaming \-input /user/test/input -output /user/test/output \-mapper “mymapper.sh” -reducer “myreducer.sh” \-file/home/work/mymapper.sh \-file /home/work/myreducer.sh \-jobconf mapred.job.name=”file-demo”上面的命令提交了一个hadoop任务,输出和输入 阅读全文
posted @ 2012-01-16 12:49
~大器晚成~
阅读(4192)
评论(0)
推荐(0)
摘要:
Streaming简介Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大,今天简单说一下。Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce Java接口获取key/value对输入,创建一个新的进程启动包装的用户程序,将数据通过管道传递给包装的用户程序处理,然后调用MapReduce Java接口将用户程序的输出切分成key/value对输出。Streaming优点1 开发效率高,便于移植只要按照标准输入输出格式 阅读全文
posted @ 2012-01-16 11:47
~大器晚成~
阅读(34219)
评论(1)
推荐(2)