摘要: 一、数据倾斜 数据倾斜一般发生在对数据进行重新划分以及聚合的处理过程中。执行Spark作业时,数据倾斜一般发生在shuffle过程中,因为Spark的shuffle过程需要进行数据的重新划分处理。在执行shuffle过程中,Spark需要将各个节点上相同key的数据拉取到某个处理节点的task中进行 阅读全文
posted @ 2018-01-10 14:14 Runner_Jack 阅读(3199) 评论(1) 推荐(1) 编辑