Hadoop-MapReducer学习

一、InputFormat

1.默认的是`TextInputFormat`，`key`偏移量，`value`一行内容。

2.处理小文件`CombineTextInputFormat`把多个文件合并到一起统一切片。

二、Mapper

`setup()`初始化；`map()`用户的业务逻辑；`clearup()`关闭资源

三、分区

1.默认分区`HashPartitioner`，默认按照`key`的`hash值%numreducertask的个数`

2.自定义分区

四、排序

1.部分排序：每个输出的文件内部有序。

2.全排序：一个`reducer`，对所有数据大排序。

3.二次排序：自定义排序范畴，实现`writableCompare`接口，重写`compareTo`方法（总流量排序按照上行流量正序）

五、Combiner

1.前提：不影响最终的业务逻辑（求和）

2.提前聚合map => 解决数据倾斜的一种方法

六、Reducer

1.用户的业务逻辑

2.`setup()`初始化；`reducer()`用户的业务逻辑；`clearup()`关闭资源

七、OutputFormat

1.默认`TextOutputFormat`按行输出到文件

2.自定义

posted on 2022-08-31 19:02 L先森请坐下阅读(39) 评论(0) 收藏举报

刷新页面返回顶部

L先森请坐下

Hadoop-MapReducer学习

一、InputFormat

1.默认的是`TextInputFormat`，`key`偏移量，`value`一行内容。

2.处理小文件`CombineTextInputFormat`把多个文件合并到一起统一切片。

二、Mapper

`setup()`初始化；`map()`用户的业务逻辑；`clearup()`关闭资源

三、分区

1.默认分区`HashPartitioner`，默认按照`key`的`hash值%numreducertask的个数`

2.自定义分区

四、排序

1.部分排序：每个输出的文件内部有序。

2.全排序：一个`reducer`，对所有数据大排序。

3.二次排序：自定义排序范畴，实现`writableCompare`接口，重写`compareTo`方法（总流量排序按照上行流量正序）

五、Combiner

1.前提：不影响最终的业务逻辑（求和）

2.提前聚合map => 解决数据倾斜的一种方法

六、Reducer

1.用户的业务逻辑

2.`setup()`初始化；`reducer()`用户的业务逻辑；`clearup()`关闭资源

七、OutputFormat

1.默认`TextOutputFormat`按行输出到文件

2.自定义

导航

公告

L先森请坐下

Hadoop-MapReducer学习

一、InputFormat

1.默认的是TextInputFormat，key偏移量，value一行内容。

2.处理小文件CombineTextInputFormat把多个文件合并到一起统一切片。

二、Mapper

setup()初始化；map()用户的业务逻辑；clearup()关闭资源

三、分区

1.默认分区HashPartitioner，默认按照key的hash值%numreducertask的个数

2.自定义分区

四、排序

1.部分排序：每个输出的文件内部有序。

2.全排序：一个reducer，对所有数据大排序。

3.二次排序：自定义排序范畴，实现writableCompare接口，重写compareTo方法（总流量排序 按照上行流量 正序）

五、Combiner

1.前提：不影响最终的业务逻辑（求和）

2.提前聚合map => 解决数据倾斜的一种方法

六、Reducer

1.用户的业务逻辑

2.setup()初始化；reducer()用户的业务逻辑；clearup()关闭资源

七、OutputFormat

1.默认TextOutputFormat按行输出到文件

2.自定义

导航

公告

1.默认的是`TextInputFormat`，`key`偏移量，`value`一行内容。

2.处理小文件`CombineTextInputFormat`把多个文件合并到一起统一切片。

`setup()`初始化；`map()`用户的业务逻辑；`clearup()`关闭资源

1.默认分区`HashPartitioner`，默认按照`key`的`hash值%numreducertask的个数`

2.全排序：一个`reducer`，对所有数据大排序。

3.二次排序：自定义排序范畴，实现`writableCompare`接口，重写`compareTo`方法（总流量排序按照上行流量正序）

2.`setup()`初始化；`reducer()`用户的业务逻辑；`clearup()`关闭资源

1.默认`TextOutputFormat`按行输出到文件