Mapreduce 学习笔记
1 定义
MapRdcude通过顺序读取数据来完成。

1.通过MAP计算来获取所关心的内容,输入键值对。
2.Group操作:通过key来实现聚集运算,group by key,相同的键值聚集在一起
3、Reduce:进行总结、变换、累加运算,对聚集在一起的键值进行运算
2 举例说明:
问题1:有个很大的文件,需要统计每个单词出现的次数。

问题2:哪个url被点击几次?
解决1:

过程如下:一行行按单词顺序读入,map阶段产生(单词,1)这样的键值对,group阶段对键值一样的键值对集中在一起,reduce阶段对键值群进行累加运算。
伪代码如下:(注意:group操作由hadoop平台自行完成,不用人为操作)

map任务M个,reduce任务R个,则R<M。
另外,MAP和REDUCE可以相互嵌套,如下所示:

3 适用mapreduce的例子



4 参考网址
【1】KMeans聚类算法Hadoop实现 http://blog.csdn.net/jdplus/article/details/23960127
【2】【hadoop】大规模中文网站聚类kmeans的mapreduce实现(上) http://blog.csdn.net/lawrencesgj/article/details/8606532
【3】http://www.xiapistudio.com/taste-page hadoop安装介绍
【4】教程 http://e.youku.com/cp/ECOMjc3OTY=/ECHMzYwMDA4?spm=a2h0v.8245817.2377199.2
【5】视频教程 http://study.163.com/course/courseLearn.htm?courseId=1003003001#/learn/video?lessonId=1003410381&courseId=1003003001
浙公网安备 33010602011771号