MapReduce框架原理之开发总结

MapReduce 框架原理之开发总结

输入数据接口：InputFormat
- 默认使用的实现类：TextInputFormat
- TextInputFormat 的功能逻辑是：一次读一行文本，然后将该行的起始偏移量作为 key，行内容作为 value 返回。
- CombineTextInputFormat 可以把多个小文件合并成一个切片处理，提高处理效率。
逻辑处理接口

用户根据业务需求实现其中三个方法：map() setup() cleanup ()
Paritioner 分区
- 有默认实现 HashPartitioner，逻辑是根据 key 的哈希值和 numReduces 来返回一个分区号；key.hashCode()&Integer.MAXVALUE % numReduces
- 如果业务上有特别的需求，可以自定义分区。
Comparable 排序
- 当我们用自定义的对象作为 key 来输出时，就必须要实现 WritableComparable 接口，重写其中的 compareTo()方法。
- 部分排序：对最终输出的每一个文件进行内部排序。
- 全排序：对所有数据进行排序，通常只有一个 Reduce。
- 二次排序：排序的条件有两个。
Combiner 合并

Combiner 合并可以提高程序执行效率，减少 IO 传输。但是使用时必须不能影响原有的业务处理结果。
逻辑处理接口：「Reducer」

用户根据业务需求实现其中三个方法：reduce() setup() cleanup ()

7.输出数据接口：「OutputFormat」

posted @ 2021-11-09 17:26 逆十字阅读(31) 评论(0) 收藏举报

刷新页面返回顶部