文章分类 -  MapReduce

MapReduce应用程序执行过程
摘要:1、用户编写Map和Reduce程序,选择一个节点作为Master来运行JobTracker;选择其他若干节点作为TaskTracker运行Map或Reduce程序; 2、把Map和Reduce程序任务分发到各个Map或Reduce节点中; 3、RR从HDFS读取InputFormat产生的分片所对 阅读全文

posted @ 2017-07-01 15:57 ostin 阅读(346) 评论(0) 推荐(0)

Shuffle过程详解
摘要:1. Shuffle过程简介 Map输出的键值对都写入缓存。缓存每次满时,触发溢写过程。溢写把处理后键值对写到硬盘文件中。一次溢写生产一个文件。每次溢写完成后清空缓存。 溢写包括分区、排序、合并(可能发生合并)。 每个Reduce任务获取本任务需要处理的由Map任务产生的溢写文件,多个溢写文件最终归 阅读全文

posted @ 2017-06-28 23:00 ostin 阅读(3236) 评论(0) 推荐(0)

MapReduce工作流程
摘要:一、工作流程概述 待处理的大数据存储于HDFS中,被分成多个分片Split,每个分片由一个Map任务处理,这样可并行处理海量数据。 Map输出分区的数量取决于Reduce任务的数量。 每个Map任务的每个分区都要经过Shuffle处理(对Map的输出进行排序、合并,生成<key, value-lis 阅读全文

posted @ 2017-06-28 19:56 ostin 阅读(831) 评论(0) 推荐(0)

MapReduce模型
摘要:一、分布式并行编程 谷歌公司最先提出了分布式并行编程模型MapReduce,Hadoop MapReduce是它的开源实现,后者比前者使用门槛低很多 。 传统并行计算框架:如MPI(Message Passing Interface,消息传递接口)。 MPI是一个跨语言的通讯协议,用于编写并行计算机 阅读全文

posted @ 2017-06-26 22:36 ostin 阅读(544) 评论(0) 推荐(0)

MapReduce的体系结构
摘要:MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task Client:客户端,用于提交作业 JobTracker:作业跟踪器,负责作业调度,作业执行,作业失败后恢复 TaskScheduler:任务调度器,负责任务调度 TaskT 阅读全文

posted @ 2017-06-26 22:36 ostin 阅读(7326) 评论(1) 推荐(2)