2012 年 1月 16 日随笔档案 - ~大器晚成~

2012年1月16日

摘要：前两篇文章介绍了Hadoop Streaming框架的使用方法。由于篇幅所限，并没有介绍其中的高级使用方法，但是有一些用法还是相当常见的。今天对一些高级用法进行一个简单的说明，希望能给大家一些启发。 1 使用cacheFile分发文件如果文件（如字典文件）存放在HDFS中，希望计算时在每个计算节点上将文件当作本地文件处理，，可以使用-cacheFile hdfs://host:port/path/to/file#linkname选项在计算节点缓存文件，Streaming程序通过./linkname访问文件。例如： hadoop = `which hadoop` $hado... 阅读全文

posted @ 2012-01-16 23:20 ~大器晚成~ 阅读(19016) 评论(6) 推荐(3)

Hadoop Streaming框架使用（二）

摘要：上一篇文章介绍了Streaming的各种参数，本文具体介绍使用方法。提交hadoop任务示例：$HADOOP_HOME/bin/hadoop streaming \-input /user/test/input -output /user/test/output \-mapper “mymapper.sh” -reducer “myreducer.sh” \-file/home/work/mymapper.sh \-file /home/work/myreducer.sh \-jobconf mapred.job.name=”file-demo”上面的命令提交了一个hadoop任务，输出和输入阅读全文

posted @ 2012-01-16 12:49 ~大器晚成~ 阅读(4194) 评论(0) 推荐(0)

Hadoop Streaming框架使用（一）

摘要： Streaming简介Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用，方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大，今天简单说一下。Streaming的原理是用Java实现一个包装用户程序的MapReduce程序，该程序负责调用MapReduce Java接口获取key/value对输入，创建一个新的进程启动包装的用户程序，将数据通过管道传递给包装的用户程序处理，然后调用MapReduce Java接口将用户程序的输出切分成key/value对输出。Streaming优点1 开发效率高，便于移植只要按照标准输入输出格式阅读全文

posted @ 2012-01-16 11:47 ~大器晚成~ 阅读(34230) 评论(1) 推荐(2)

与你分享

让分享融入生活

公告