随笔分类 - hadoop源代码阅读-mapreduce流程
mapreduce中涉及到的类以及调用的源代码阅读
摘要:http://www.kuqin.com/system-analysis/20111221/316517.html hadoop的分布式管理工具http://www.tbdata.org/archives/1470 淘宝关于hadoop的性能调优 当job指定了combiner的时候,我们都知道map介绍后会在map端根据combiner定义的函数将map结果进行合并。运行combiner函数的时机有可能会是merge完成之前,或者之后,这个时机可以由一个参数控制,即min.num.spill.for.combine(default 3),当job中设定了combiner,并且spill数最少
阅读全文
摘要:用户 关注的产品1 B C E2 C E F3 A D F4 B C E5 A B D6 A B D矩阵转置:产品 关注该产品的用户A 3 5 6B 1 4 5 6C 1 2 4D 3 5 6E 1 2 4F 2 3map 输入: 几行 (key 是用户 value 关注该用户的人),such as 第一行: A 3 5 6map输出:key 3 value [5 A(共同关注产品A)],[6 A(共同关注产品A)] key 5 [6 A(共同关注产品A)] (只选出key为1的map输出) 1:4--B, 1:5--B, 1:6--B 1:2--C ,1:4--C, 无 1:2--E ,1.
阅读全文

浙公网安备 33010602011771号