过雁

--每天都被梦想唤醒--

   :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2015年1月26日

摘要: 无论是Hadoop还是spark,shuffle操作都是决定其性能的重要因素。在不能减少shuffle的情况下,使用一个好的shuffle管理器也是优化性能的重要手段。ShuffleManager的主要功能是在task直接传递数据,所以getWriter和getReader是它的主要接口。大流程: 1)需求方:当一个Stage依赖于一个shuffleMap的结果,那它在DAG分解的时候就能识... 阅读全文
posted @ 2015-01-26 00:33 过雁 阅读(835) 评论(0) 推荐(0) 编辑