8.1.1默认的map函数、reduce函数、分区函数

1.1.1 默认的map函数和reduce函数

（1）Maper和Reuducer默认类

如果没有指定maper类和reduce类，则会用默认的Maper和Reuducer类去处理数据。也可以显示的将处理类设置为Maper和Reducer类。默认的Maper类和reduce类是将输入原封不动的输出。Map任务的数量等于输入文件分块数。

（2）默认分区类

默认的partitioner是HashPartitioner,对每条记录的键进行哈希操作，决定该记录属于哪个分区，分区值由哈希值与最大的整型值做一次按位与操作，然后进行取模操作，一个分区由一个reduce处理，所以分区数等于作业的reduce任务个数。默认只有一个分区，partitioner作用就变得无关紧要，多个分区时，散列函数足够好，会将记录均匀的分到多个reduce任务中。Reduce任务多，并行化程度高，减少时间，但是小文件会变多。Reduce任务少，处理效率低。经验是reduce任务运行5分钟左右。

自己开发了一个股票智能分析软件，功能很强大，需要的点击下面的链接获取：

https://www.cnblogs.com/bclshuai/p/11380657.html

posted @ 2020-01-30 09:56 一字千金阅读(380) 评论(0) 收藏举报

刷新页面返回顶部

一字千金

8.1.1默认的map函数、reduce函数、分区函数

1.1.1 默认的map函数和reduce函数

公告