hadoop - 随笔分类 - @且听风吟@

Hadoop–Task 相关

摘要：在MapReduce计算框架中，一个应用程序被划分为Map和Reduce两个计算阶段。他们分别由一个或多个Map Task 和Reduce Task组成。 Map Task：处理输入数据集合中的一片数据，并将产生的若干个数据片段写到本地磁盘。按照用户提供的InputFormat将对应的InputSpilt解析成一系列的key/value，并以此交给用户编写的map()... 阅读全文

posted @ 2013-08-04 12:54 @且听风吟@ 阅读(458) 评论(0) 推荐(0)

Hadoop–TaskTracker 相关

摘要：TaskTracker 是Hadoop集群中运行于各个节点上的服务。他是JobTracker和Task之间的“通信桥梁”。一方面它从JobTracker端接受并执行各种命令：比如运行任务、提交任务、杀死任务。另一方面它将各个任务的状态周期性心跳汇报给JobTracker。其两个功能：汇报心跳：机器级别信息：节点健康状况、资源使用情况。任务级别信息：任务... 阅读全文

posted @ 2013-08-04 11:59 @且听风吟@ 阅读(203) 评论(0) 推荐(0)

hadoop–JobTracker 相关

摘要：JobTracker 内部使用三层表示： JobInProgress：跟踪和监控作业运行状态的对象。每个Job分成了多个Task。并为每个Task创建一个TaskInProgress跟踪和监控其运行状态。而Task在运行过程中由于多种原因，比如软件Bug，硬件故障、推测机制等，每个Task可能尝试运行多次，直到运行成功或者超过尝试次数而失败。每次的尝试为TaskAttemp。作业使... 阅读全文

posted @ 2013-07-28 17:56 @且听风吟@ 阅读(381) 评论(0) 推荐(0)

hadoop的partitioner

摘要：hadoop的partitioner是用来控制map的输出到reducer的。可以添加自定义的partioner函数来控制map的输出，来控制将制定的结果输出到特定的reducer文件中。以便于结果的定位。一般是根据map输出的key进行做控制，返回一个int值，来指定将map的输出到哪个reducer中。refer http://www.cnblogs.com/xwdreamer/archive/2011/10/27/2296943.html 阅读全文

posted @ 2013-02-27 10:49 @且听风吟@ 阅读(149) 评论(0) 推荐(0)

随笔分类 - hadoop