2018 年 1月 10 日随笔档案 - Runner_Jack

2018年1月10日

摘要：一、数据倾斜数据倾斜一般发生在对数据进行重新划分以及聚合的处理过程中。执行Spark作业时，数据倾斜一般发生在shuffle过程中，因为Spark的shuffle过程需要进行数据的重新划分处理。在执行shuffle过程中，Spark需要将各个节点上相同key的数据拉取到某个处理节点的task中进行阅读全文

posted @ 2018-01-10 14:14 Runner_Jack 阅读(3199) 评论(1) 推荐(1) 编辑

Runner_Jack

公告