MapReduce作业是客户端需要执行的一个工作单元:它包括输入数据,MAPReduce程序和配置信息

有两类节点控制着作业执行过:一个jobtracker及以一系列tasktracker
jobtracker是管理者,通过调度tasktracker上运行的任务来协调所有运行在系统上的作业。tasktracker在运行任务的通过将运行进度报告发送给Jobtracker,jobtracker由此记录每项作业任务的整体进度情况

Hadoop对输入数据进行等长切块,对每个数据块进行map操作

Hadoop在存储有输入数据(HDFS中的数据)的节点上运行map任务,可以获得最佳性能。这就是所谓的“数据本地化优化”

map任务将其输出写入本地硬盘,而非HDFS(中间结果)
reduce任务并不具备数据本地化的优势。reduce的输出通常存储在HDFS中以实现可靠存储。

posted @ 2018-04-03 19:48  blog_hfg  阅读(123)  评论(0)    收藏  举报