My Github
摘要: (1)经典之王:单词计数-这个是MapReduce的经典案例,经典的不能再经典了!(2)数据去重-"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。(3)排序:按某个Key进行升序或降序排列 阅读全文
posted @ 2015-02-25 18:18 EdisonZhou 阅读(10330) 评论(3) 推荐(3) 编辑
摘要: 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行;从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组。在一些特定的数据文件中,不一定都是类似于WordCount单次统计这种规范的数据,比如下面这类数据,它虽然只有两列,但是却有一定的实践意义。 阅读全文
posted @ 2015-02-25 01:22 EdisonZhou 阅读(25644) 评论(2) 推荐(9) 编辑