2017 年 4月 16 日随笔档案 - xingoo

2017年4月16日

摘要：最近因为手抖，在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题，顺便研究了下Spark分区器的原理，趁着周末加班总结一下~ 先说说数据倾斜数据倾斜是指Spark中的RDD在计算的时候，每个RDD内部的分区包含的数据不平均。比如一共有5个分区，其中一个占有了90%的数据，这就导致本来5个分阅读全文

posted @ 2017-04-16 14:01 xingoo 阅读(4872) 评论(0) 推荐(2)

xingoo

公告