Hadoop-MapReducer学习

一、InputFormat

1.默认的是TextInputFormatkey偏移量,value一行内容。

2.处理小文件CombineTextInputFormat把多个文件合并到一起统一切片。

二、Mapper

setup()初始化;map()用户的业务逻辑;clearup()关闭资源

三、分区

1.默认分区HashPartitioner,默认按照keyhash值%numreducertask的个数

2.自定义分区

四、排序

1.部分排序:每个输出的文件内部有序。

2.全排序:一个reducer,对所有数据大排序。

3.二次排序:自定义排序范畴,实现writableCompare接口,重写compareTo方法(总流量排序 按照上行流量 正序)

五、Combiner

1.前提:不影响最终的业务逻辑(求和)

2.提前聚合map => 解决数据倾斜的一种方法

六、Reducer

1.用户的业务逻辑

2.setup()初始化;reducer()用户的业务逻辑;clearup()关闭资源

七、OutputFormat

1.默认TextOutputFormat按行输出到文件

2.自定义

posted on 2022-08-31 19:02  L先森请坐下  阅读(19)  评论(0编辑  收藏  举报

导航