二

MapReduce作业是客户端需要执行的一个工作单元：它包括输入数据，MAPReduce程序和配置信息

有两类节点控制着作业执行过:一个jobtracker及以一系列tasktracker
jobtracker是管理者，通过调度tasktracker上运行的任务来协调所有运行在系统上的作业。tasktracker在运行任务的通过将运行进度报告发送给Jobtracker，jobtracker由此记录每项作业任务的整体进度情况

Hadoop对输入数据进行等长切块，对每个数据块进行map操作

Hadoop在存储有输入数据(HDFS中的数据)的节点上运行map任务，可以获得最佳性能。这就是所谓的“数据本地化优化”

map任务将其输出写入本地硬盘，而非HDFS（中间结果）
reduce任务并不具备数据本地化的优势。reduce的输出通常存储在HDFS中以实现可靠存储。

posted @ 2018-04-03 19:48 blog_hfg 阅读(124) 评论(0) 收藏举报

刷新页面返回顶部

blog_hfg

二

公告