2015年1月12日

Spark技术内幕:Shuffle Read的整体流程

摘要: 回忆一下,每个Stage的上边界,要么需要从外部存储读取数据,要么需要读取上一个Stage的输出;而下边界,要么是需要写入本地文件系统(需要Shuffle),以供childStage读取,要么是最后一个Stage,需要输出结果。这里的Stage,在运行时的时候就是可以以pipeline的方式运行的... 阅读全文

posted @ 2015-01-12 08:07 wu2198 阅读(264) 评论(0) 推荐(0)

Spark技术内幕:Shuffle Map Task运算结果的处理

摘要: Shuffle Map Task运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对Shuffle Write的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的... 阅读全文

posted @ 2015-01-12 08:02 wu2198 阅读(325) 评论(0) 推荐(0)

导航