会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
尧字节
明翼
首页
新随笔
联系
订阅
管理
2016年7月15日
Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜
摘要: 广播变量 背景 一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化。大表小表Join,小表使用广播的方式,减少Join操作。 参考:Spark广播变量与累加器 Local Dir 背景 shuffle过程中,临时数据需要写入本地磁盘。本地磁盘的临时目录通过参数s
阅读全文
posted @ 2016-07-15 18:05 XGogo
阅读(4150)
评论(0)
推荐(0)
公告