随笔分类 -  hadoop

hadoop相关学习记录
摘要:Partitioner的作用的对Mapper产生的中间结果进行分片,以便将同一分组的数据交给同一个Reduce处理,Partitioner直接影响Reduce阶段的负载均衡。 MapReduce提供了两个Partitioner实现:HashPartitioner和TotalOederPartitio 阅读全文
posted @ 2019-02-19 00:12 wgyang2016 阅读(353) 评论(0) 推荐(0)
摘要:FileOutputFormat类继承OutputFormat,需要提供所有基于文件的OutputFormat实现的公共功能,主要有以下两点: (1)实现checkOutputSpecs方法 checkOutputSpecs方法一般在作业被提交到JobTracker之前,由JobClient自动调用 阅读全文
posted @ 2019-02-19 00:09 wgyang2016 阅读(407) 评论(0) 推荐(0)
摘要:文件切分算法 文件切分算法主要用于确定InputSplit的个数以及每个InputSplit对应的数据段。 FileInputFormat以文件为单位切分成InputSplit。对于每个文件,由以下三个属性值确定其对应的InputSplit的个数。 goalSize:根据用户期望的InputSpli 阅读全文
posted @ 2019-02-19 00:07 wgyang2016 阅读(491) 评论(0) 推荐(0)