会员
众包
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
xingoo
博客园
首页
管理
2017年4月16日
Spark源码分析之分区器的作用
摘要: 最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~ 先说说数据倾斜 数据倾斜是指Spark中的RDD在计算的时候,每个RDD内部的分区包含的数据不平均。比如一共有5个分区,其中一个占有了90%的数据,这就导致本来5个分
阅读全文
posted @ 2017-04-16 14:01 xingoo
阅读(4798)
评论(0)
推荐(2)
编辑
公告