摘要: MR-Job默认的输入格式FileInputFormat为每一个小文件生成一个切片。CombineFileInputFormat通过将多个“小文件”合并为一个"切片"(在形成切片的过程中也考虑同一节点、同一机架的数据本地性),让每一个Mapper任务可以处理更多的数据,从而提高MR任务的执行速度。详... 阅读全文
posted @ 2015-08-24 15:56 skyl夜 阅读(4020) 评论(0) 推荐(1) 编辑
摘要: 对于在一个MR-Job中使用多路径作为输入文件,一般有三种方法:1).多次调用,加载不同路径:import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.out... 阅读全文
posted @ 2015-08-24 02:00 skyl夜 阅读(1347) 评论(0) 推荐(0) 编辑
摘要: //MultipleOutputs类用于简化多文件输出The MultipleOutputs class simplifies writing output data to multiple outputs //案例一:在job默认的输出之外,附加自定义的输出.自定义的输出可以指定:输出格式以及 k... 阅读全文
posted @ 2015-08-24 01:32 skyl夜 阅读(1449) 评论(0) 推荐(0) 编辑