摘要: 二次排序的需求说明 在mapreduce操作时,shuffle阶段会多次根据key值排序。但是在shuffle分组后,相同key值的values序列的顺序是不确定的(如下图)。如果想要此时value值也是排序好的,这种需求就是二次排序。 1.png 测试的文件数据 第一种实现思路 直接在reduce 阅读全文
posted @ 2019-02-21 22:06 流氓小伙子 阅读(450) 评论(0) 推荐(0)
摘要: MapReduce排序,从大的范围来说有两种排序,一种是按照key排序,一种是按照value排序。如果按照value排序,只需在map函数中将key和value对调,然后在reduce函数中在对调回去。从小范围来说排序又分成部分排序,全局排序,辅助排序(二次排序)等 全局排序 全局排序就是说在一个M 阅读全文
posted @ 2019-02-21 10:07 流氓小伙子 阅读(1898) 评论(0) 推荐(2)