摘要: 提出问题 1. spark shuffle的预聚合操作是如何做的,其中底层的数据结构是什么?在数据写入到内存中有预聚合,在读溢出文件合并到最终的文件时是否也有预聚合操作? 2. shuffle数据的排序是如何做的? 分区内的数据是否是有序的?若有序,spark 内部是按照什么排序算法来排序每一个分区 阅读全文
posted @ 2019-08-06 23:44 JohnnyBai 阅读(1532) 评论(3) 推荐(3) 编辑