Map/Reduce之间的Partitioner接口
摘要:一、Partitioner介绍Partitioner的作用是对Mapper产生的中间结果进行分片,以便将同一分组的数据交给同一个Reduce处理,它直接影响Reduce阶段的负载均衡(个人理解:就是按照Reduce的个数,将Mapper产生的中间结果按照关键字送给不同的Reduce,Reduce对相...
阅读全文
posted @
2014-05-02 21:10
月下美妞1314
阅读(387)
推荐(0)
RecordWriter接口解析
摘要:RecordWriter是将Map/Reduce结果(Key-Value)输出到文件系统中。/** * RecordWriter writes the output <key, value> pairs * to an output file. * RecordWriter impl...
阅读全文
posted @
2014-05-02 16:23
月下美妞1314
阅读(1013)
推荐(0)
OutputFormat中OutputCommitter解析
摘要:在hadoop中,由于一个Task可能由多个节点同时运行,当每个节点完成Task时,一个Task可能会出现多个结果,为了避免这种情况的出现,使用了OutPutCommitter。所以OutPutCommitter主要的功能是在作业或任务完成时,确保结果的正确提交。OutPutCommitter的主要...
阅读全文
posted @
2014-05-02 15:57
月下美妞1314
阅读(758)
推荐(0)
Hadoop中OutputFormat解析
摘要:一、OutputFormatOutputFormat描述的是MapReduce的输出格式,它主要的任务是: 1.验证job输出格式的有效性,如:检查输出的目录是否存在。 2.通过实现RecordWriter,将输出的结果写到文件系统的文件中。OutputFormat的主要是由三个抽象方法组成,下面根...
阅读全文
posted @
2014-05-02 14:59
月下美妞1314
阅读(418)
推荐(0)
Hadoop中的InputFormat解析
摘要:1、InputFormat InputFormat是Hadoop平台上Mapreduce输入的规范,仅有两个抽象方法。List getSplits(), 获取由输入文件计算出输入分片(InputSplit),解决数据或文件分割成片问题。RecordReader createRecordReader...
阅读全文
posted @
2014-04-30 19:12
月下美妞1314
阅读(645)
推荐(0)