mapreduce 学习笔记
mapreduce基础概念
mapreduce是一个分布式计算框架(hadoop是mapreduce框架的一个免费开源java实现)。
mapreduce要点
-
主节点(master node)控制mapreduce的作业流程
-
mapreduce的作业可分为map任务和reduce任务
-
map任务之间不做数据交流,reduce同理
-
在map和reduce阶段有一个sort或combine阶段
-
数据被重复放在不同的机器上,以防某个机器失效
-
map和reduce传输数据的形式为key/value对
------口天丶木乔