随笔分类 -  hadoop

Hadoop–Task 相关
摘要:在MapReduce计算框架中,一个应用程序被划分为Map和Reduce两个计算阶段。他们分别由一个或多个Map Task 和Reduce Task组成。 Map Task: 处理输入数据集合中的一片数据,并将产生的若干个数据片段写到本地磁盘。 按照用户提供的InputFormat将对应的InputSpilt解析成一系列的key/value, 并以此交给用户编写的map()... 阅读全文
posted @ 2013-08-04 12:54 @且听风吟@ 阅读(458) 评论(0) 推荐(0)
Hadoop–TaskTracker 相关
摘要:TaskTracker 是Hadoop集群中运行于各个节点上的服务。他是JobTracker和Task之间的“通信桥梁”。一方面它从JobTracker端接受并执行各种命令:比如运行任务、提交任务、杀死任务。 另一方面它将各个任务的状态周期性心跳汇报给JobTracker。 其两个功能: 汇报心跳: 机器级别信息:节点健康状况、资源使用情况。 任务级别信息:任务... 阅读全文
posted @ 2013-08-04 11:59 @且听风吟@ 阅读(203) 评论(0) 推荐(0)
hadoop–JobTracker 相关
摘要:JobTracker 内部使用三层表示: JobInProgress: 跟踪和监控作业运行状态的对象。每个Job分成了多个Task。并为每个Task创建一个TaskInProgress跟踪和监控其运行状态。 而Task在运行过程中由于多种原因,比如软件Bug,硬件故障、推测机制等,每个Task可能尝试运行多次,直到运行成功或者超过尝试次数而失败。 每次的尝试为TaskAttemp。 作业使... 阅读全文
posted @ 2013-07-28 17:56 @且听风吟@ 阅读(381) 评论(0) 推荐(0)
hadoop的partitioner
摘要:hadoop的partitioner是用来控制map的输出到reducer的。可以添加自定义的partioner函数来控制map的输出,来控制将制定的结果输出到特定的reducer文件中。以便于结果的定位。一般是根据map输出的key进行做控制,返回一个int值,来指定将map的输出到哪个reducer中。refer http://www.cnblogs.com/xwdreamer/archive/2011/10/27/2296943.html 阅读全文
posted @ 2013-02-27 10:49 @且听风吟@ 阅读(149) 评论(0) 推荐(0)