spark缓存策略、RDD容错、宽依赖和窄依赖、术语解释、spark任务调度器
spark缓存策略

常用:memory_only和memory_and_disk_ser
RDD容错
血统(lineage)类似于人类的进化,有一系列的依赖

粗粒度:只是记录过程; 细粒度:每一条数据都会保存副本

宽依赖和窄依赖

宽依赖:一对多;窄依赖:一对一
部分术语解释
resouceManager会给executor分配一个combiner,它会在combiner中启动

spark任务调度器
任务调度

DAGScheduler

TaskScheduler

job调度流程

总结;

前五个是资源调度的过程,后面是任务调度
浙公网安备 33010602011771号