shuffle
1、客户端在提交的时候会根据配置形成一个一个任务分配规划
2、客户端提交信息
3、yum会计算出maptask的个数
4、文件默认以textInputFormat进入map端
5、map端进行逻辑计算
6、向环形缓冲区写数据,一半写索引,一半写数据
7、在写的时候会进行分区和排序,排序规则为字典排序,方式为快排
8、当数据写到80%的时候回溢写磁盘
9、merge归并排序,合并小文件
10、reduce端将数据下载到本地磁盘
11、合并文件,归并排序
12、逻辑计算
13、输出保存文件



浙公网安备 33010602011771号