Tekkaman

导航

 

2013年9月22日

摘要: 【Hadoop Streaming:aggregate】 1、实例1 测试文件test.txt mapper程序: 运行: $hadoop streaming -input /app/test.txt -output /app/test -mapper ./mapper-reducer aggregate-file mapper -jobconf mapred.reduce.tasks=1 -jobconf mapre.job.name="test" 输出: a 142 b 20 c 30 d 16 参考:http://blog.csdn.net/yfkiss/ar... 阅读全文
posted @ 2013-09-22 22:57 Tekkaman 阅读(363) 评论(0) 推荐(1)
 
摘要: 【启动JAR Hadoop任务】 一般情况下,我们会使用下面的命令来运行一个hadoop任务: 这个命令实际上是转化成下面的命令来运行的 在RunJar中,会读取abc.jar文件,然后尝试从manifest中提取"Main-Class"作为mainClass,如果manifest中没有指定,则把abc.jar之后的下一个参数当成mainClass。 参考:http://blog.iamzsx.me/show.html?id=185002 阅读全文
posted @ 2013-09-22 22:17 Tekkaman 阅读(332) 评论(0) 推荐(1)
 
摘要: 【MapReduce Notes】 1、一个Map/Reduce 作业的输入和输出类型如下所示: 2、Shuffle & Sort &Secondary Sort Reducer的输入就是Mapper已经排好序的输出。在这个阶段,框架通过HTTP为每个Reducer获得所有Mapper输出中与之相关的分块。 框架将按照key的值对Reducer的输入进行分组 (因为不同mapper的输出中可能会有相同的key)。Shuffle和Sort两个阶段是同时进行的;map的输出也是一边被取回一边被合并的。 如果需要中间过程对key的分组规则和reduce前对key的分组规则不同,那么可 阅读全文
posted @ 2013-09-22 21:41 Tekkaman 阅读(235) 评论(0) 推荐(1)
 
摘要: 【HDFS Architecture Notes】 1、Moving Computation is Cheaper than Moving Data A computation requested by an application is much more efficient if it is executed near the data it operates on. This is especially true when the size of the data set is huge. This minimizes network congestion and increases . 阅读全文
posted @ 2013-09-22 13:25 Tekkaman 阅读(374) 评论(0) 推荐(0)