随笔分类 - hadoop源代码阅读-mapreduce流程

mapreduce中涉及到的类以及调用的源代码阅读

摘要：http://www.kuqin.com/system-analysis/20111221/316517.html hadoop的分布式管理工具http://www.tbdata.org/archives/1470 淘宝关于hadoop的性能调优当job指定了combiner的时候，我们都知道map介绍后会在map端根据combiner定义的函数将map结果进行合并。运行combiner函数的时机有可能会是merge完成之前，或者之后，这个时机可以由一个参数控制，即min.num.spill.for.combine（default 3），当job中设定了combiner，并且spill数最少阅读全文

posted @ 2012-02-13 15:01 xiao晓阅读(297) 评论(0) 推荐(0)

对于多个集合求两两交集（共同关注的用户、共同转载的微薄等）

摘要：用户关注的产品1 B C E2 C E F3 A D F4 B C E5 A B D6 A B D矩阵转置：产品关注该产品的用户A 3 5 6B 1 4 5 6C 1 2 4D 3 5 6E 1 2 4F 2 3map 输入：几行（key 是用户 value 关注该用户的人），such as 第一行： A 3 5 6map输出：key 3 value [5 A(共同关注产品A)],[6 A(共同关注产品A)] key 5 [6 A(共同关注产品A)] (只选出key为1的map输出) 1:4--B, 1:5--B, 1:6--B 1:2--C ,1:4--C, 无 1:2--E ,1. 阅读全文

posted @ 2011-08-15 10:09 xiao晓阅读(1053) 评论(0) 推荐(1)

xiao晓

serendipity

随笔分类 - hadoop源代码阅读-mapreduce流程

公告