摘要:
无论是Hadoop还是spark,shuffle操作都是决定其性能的重要因素。在不能减少shuffle的情况下,使用一个好的shuffle管理器也是优化性能的重要手段。ShuffleManager的主要功能是在task直接传递数据,所以getWriter和getReader是它的主要接口。大流程: 1)需求方:当一个Stage依赖于一个shuffleMap的结果,那它在DAG分解的时候就能识... 阅读全文
摘要:
无论是Hadoop还是spark,shuffle操作都是决定其性能的重要因素。在不能减少shuffle的情况下,使用一个好的shuffle管理器也是优化性能的重要手段。ShuffleManager的主要功能是在task直接传递数据,所以getWriter和getReader是它的主要接口。大流程: 1)需求方:当一个Stage依赖于一个shuffleMap的结果,那它在DAG分解的时候就能识... 阅读全文
|