随笔分类 -  hadoop源代码分析

Map/Reduce之间的Partitioner接口
摘要:一、Partitioner介绍Partitioner的作用是对Mapper产生的中间结果进行分片,以便将同一分组的数据交给同一个Reduce处理,它直接影响Reduce阶段的负载均衡(个人理解:就是按照Reduce的个数,将Mapper产生的中间结果按照关键字送给不同的Reduce,Reduce对相... 阅读全文
posted @ 2014-05-02 21:10 月下美妞1314 阅读(387) 评论(0) 推荐(0)
RecordWriter接口解析
摘要:RecordWriter是将Map/Reduce结果(Key-Value)输出到文件系统中。/** * RecordWriter writes the output <key, value> pairs * to an output file. * RecordWriter impl... 阅读全文
posted @ 2014-05-02 16:23 月下美妞1314 阅读(1013) 评论(0) 推荐(0)
OutputFormat中OutputCommitter解析
摘要:在hadoop中,由于一个Task可能由多个节点同时运行,当每个节点完成Task时,一个Task可能会出现多个结果,为了避免这种情况的出现,使用了OutPutCommitter。所以OutPutCommitter主要的功能是在作业或任务完成时,确保结果的正确提交。OutPutCommitter的主要... 阅读全文
posted @ 2014-05-02 15:57 月下美妞1314 阅读(758) 评论(0) 推荐(0)
Hadoop中OutputFormat解析
摘要:一、OutputFormatOutputFormat描述的是MapReduce的输出格式,它主要的任务是: 1.验证job输出格式的有效性,如:检查输出的目录是否存在。 2.通过实现RecordWriter,将输出的结果写到文件系统的文件中。OutputFormat的主要是由三个抽象方法组成,下面根... 阅读全文
posted @ 2014-05-02 14:59 月下美妞1314 阅读(418) 评论(0) 推荐(0)
Hadoop中的InputFormat解析
摘要:1、InputFormat InputFormat是Hadoop平台上Mapreduce输入的规范,仅有两个抽象方法。List getSplits(), 获取由输入文件计算出输入分片(InputSplit),解决数据或文件分割成片问题。RecordReader createRecordReader... 阅读全文
posted @ 2014-04-30 19:12 月下美妞1314 阅读(645) 评论(0) 推荐(0)