Spark技术内幕:Shuffle Read的整体流程
摘要:
回忆一下,每个Stage的上边界,要么需要从外部存储读取数据,要么需要读取上一个Stage的输出;而下边界,要么是需要写入本地文件系统(需要Shuffle),以供childStage读取,要么是最后一个Stage,需要输出结果。这里的Stage,在运行时的时候就是可以以pipeline的方式运行的... 阅读全文
posted @ 2015-01-12 08:07 wu2198 阅读(264) 评论(0) 推荐(0)
浙公网安备 33010602011771号