MapReduce学习

MapReduce的实验做的差不多了,但是我对于MapReduce其实根本没有什么理解,知识硬着头皮做实验。

现在通过老师法的PPT对MapReduce有了一个基本了解。

MapReduce:

  用于解决大规模的数据处理,最主要的思想就是“分而治之”

MapReduce示例:单词计数(通过此例子了解MapRedue解决问题的流程)

  给定一个巨大文本,如何计算每个单词出现的次数?

  

  使用MapReduce求解:

  Step1:对文本进行切割

  

  我理解的是,将大数据分割成小数据,然后交给集群处理

  Step2:对分割后的每一对<key,value>进行用户定义的Map处理,生成新的<key,value>

  

  这一步按我的理解就是,按照用户的规定对数据进行处理。

  Step3:对输出的结果集归拢,排序(系统自动完成)

  

  我理解的是,这是数据整理的过程,可以看到相同的单词都被集合到一起了

  Step4:通过Reduce操作生成最后结果

  

  这一步应该就是按用户想要的形式输出,形成最终结果。

 

 

 

相关术语:

 

 

posted @ 2021-11-19 16:34  风吹过半夏  阅读(53)  评论(0编辑  收藏  举报