Mapreduce 学习笔记

1 定义

MapRdcude通过顺序读取数据来完成。

1.通过MAP计算来获取所关心的内容，输入键值对。

2.Group操作：通过key来实现聚集运算，group by key，相同的键值聚集在一起

3、Reduce：进行总结、变换、累加运算，对聚集在一起的键值进行运算

问题1：有个很大的文件，需要统计每个单词出现的次数。

问题2：哪个url被点击几次？

解决1：

过程如下：一行行按单词顺序读入，map阶段产生（单词，1）这样的键值对，group阶段对键值一样的键值对集中在一起，reduce阶段对键值群进行累加运算。

伪代码如下：（注意：group操作由hadoop平台自行完成，不用人为操作）

map任务M个，reduce任务R个，则R<M。

另外，MAP和REDUCE可以相互嵌套，如下所示：

【1】KMeans聚类算法Hadoop实现 http://blog.csdn.net/jdplus/article/details/23960127

【3】http://www.xiapistudio.com/taste-page hadoop安装介绍

【4】教程 http://e.youku.com/cp/ECOMjc3OTY=/ECHMzYwMDA4?spm=a2h0v.8245817.2377199.2

【5】视频教程 http://study.163.com/course/courseLearn.htm?courseId=1003003001#/learn/video?lessonId=1003410381&courseId=1003003001

posted @ 2017-01-22 11:28 ibelivehz 阅读(97) 评论(0) 收藏举报

刷新页面返回顶部