Spark RDD源码阅读01
RDD是什么:Resilient Distributed Dataset
![]()
一、RDD的特征属性

1、partitions

2、compute

3、dependencies

二、RDD的执行Job的流程
RDD: 这些方法是判断这个Job结束的标志,然后开始执行Job。

SparkContext:




DAGScheduler:
1、

2、

3、

4、

5、

6、

7、

8、

9、

10、

11、1号表示获取当前shuffledDep.rdd的依赖的shuffleRdd,2号表示对所依赖的shuffleRdd划分stage。由此看出是通过shuffleRdd来划分stage的。

12、

13、

14、这个newShuffleMapStage 是去得到依赖的stage,从这可看出跟9号图一样的方法来获取父stage。进行了DAG图依赖的得到所有的stage。

15、回到8号图,执行以下的方法后,

16、从7号图的listenerBus的post提交的事件。

三、基本方法
cache() 和 persist() 一致。



浙公网安备 33010602011771号