Mapreduce 学习笔记

1 定义

MapRdcude通过顺序读取数据来完成。

1.通过MAP计算来获取所关心的内容,输入键值对。

2.Group操作:通过key来实现聚集运算,group by key,相同的键值聚集在一起

3、Reduce:进行总结、变换、累加运算,对聚集在一起的键值进行运算

2 举例说明:

问题1:有个很大的文件,需要统计每个单词出现的次数。

问题2:哪个url被点击几次?

解决1:

过程如下:一行行按单词顺序读入,map阶段产生(单词,1)这样的键值对,group阶段对键值一样的键值对集中在一起,reduce阶段对键值群进行累加运算。

伪代码如下:(注意:group操作由hadoop平台自行完成,不用人为操作)

 map任务M个,reduce任务R个,则R<M。

另外,MAP和REDUCE可以相互嵌套,如下所示:

3 适用mapreduce的例子

 4 参考网址

【1】KMeans聚类算法Hadoop实现 http://blog.csdn.net/jdplus/article/details/23960127

【2】【hadoop】大规模中文网站聚类kmeans的mapreduce实现(上) http://blog.csdn.net/lawrencesgj/article/details/8606532

【3】http://www.xiapistudio.com/taste-page hadoop安装介绍

【4】教程 http://e.youku.com/cp/ECOMjc3OTY=/ECHMzYwMDA4?spm=a2h0v.8245817.2377199.2

【5】视频教程 http://study.163.com/course/courseLearn.htm?courseId=1003003001#/learn/video?lessonId=1003410381&courseId=1003003001

posted @ 2017-01-22 11:28  ibelivehz  阅读(96)  评论(0)    收藏  举报