会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
西兰花是真的菜
熬夜是放纵,早起才是自律!
博客园
首页
新随笔
联系
订阅
管理
2020年3月22日
Spark的Shuffle是怎么回事
摘要: Shuffle的中文含义是混洗,官方定义是:一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中,存在着大量的网络消耗传输数据,会在磁盘上产生大量的中间文件,在平时的工作中了解shuffle的运行机制能帮助我们写出更优秀的代码。此篇文章从shuffle的含义开始讲起,按照spark中shuffle的几中不同运行机制进行了解析,并最终附上了一些shuffle调优的建议。
阅读全文
posted @ 2020-03-22 23:05 西兰花是真的菜
阅读(938)
评论(1)
推荐(1)
编辑
公告