MapReduce做了多余的事情
摘要:
MapReduce做了多余的事情本文假定读者已了解MapReduce。MapMap阶段一般做三件事情:1. 切分输入2. 变换输入为输出3. 执行可选的Combine如果要说哪项是多于的,大概就是Combine了。Combine在很多时候可以减少传递给Reduce的数据量;但是,也有一些时候,Combine只是空耗时间:1. Map输入中重复Key很多时,Combine会提高性能2. Map输入中重复Key很少时,Combine会降低性能3. 网络速度很快时,Combine提高的性能有限,甚至不会提高性能作为总结:用不用Combine,一方面取决于数据的特征(重复Key的多寡);另一方面就是网 阅读全文
posted @ 2009-10-27 15:25 能发波 阅读(131) 评论(0) 推荐(0)