hadoop源代码分析 - 随笔分类 - 月下美妞1314

Map/Reduce之间的Partitioner接口

摘要：一、Partitioner介绍Partitioner的作用是对Mapper产生的中间结果进行分片，以便将同一分组的数据交给同一个Reduce处理，它直接影响Reduce阶段的负载均衡（个人理解：就是按照Reduce的个数，将Mapper产生的中间结果按照关键字送给不同的Reduce，Reduce对相... 阅读全文

posted @ 2014-05-02 21:10 月下美妞1314 阅读(394) 评论(0) 推荐(0)

RecordWriter接口解析

摘要：RecordWriter是将Map/Reduce结果（Key-Value）输出到文件系统中。/** * RecordWriter writes the output <key, value> pairs * to an output file. * RecordWriter impl... 阅读全文

posted @ 2014-05-02 16:23 月下美妞1314 阅读(1017) 评论(0) 推荐(0)

OutputFormat中OutputCommitter解析

摘要：在hadoop中，由于一个Task可能由多个节点同时运行，当每个节点完成Task时，一个Task可能会出现多个结果，为了避免这种情况的出现，使用了OutPutCommitter。所以OutPutCommitter主要的功能是在作业或任务完成时，确保结果的正确提交。OutPutCommitter的主要... 阅读全文

posted @ 2014-05-02 15:57 月下美妞1314 阅读(762) 评论(0) 推荐(0)

Hadoop中OutputFormat解析

摘要：一、OutputFormatOutputFormat描述的是MapReduce的输出格式，它主要的任务是： 1.验证job输出格式的有效性，如：检查输出的目录是否存在。 2.通过实现RecordWriter，将输出的结果写到文件系统的文件中。OutputFormat的主要是由三个抽象方法组成，下面根... 阅读全文

posted @ 2014-05-02 14:59 月下美妞1314 阅读(432) 评论(0) 推荐(0)

Hadoop中的InputFormat解析

摘要：1、InputFormat InputFormat是Hadoop平台上Mapreduce输入的规范，仅有两个抽象方法。List getSplits()，获取由输入文件计算出输入分片(InputSplit)，解决数据或文件分割成片问题。RecordReader createRecordReader... 阅读全文

posted @ 2014-04-30 19:12 月下美妞1314 阅读(649) 评论(0) 推荐(0)

随笔分类 - hadoop源代码分析