wqy1027

eeee

 

2022年10月26日

spark缓存策略、RDD容错、宽依赖和窄依赖、术语解释、spark任务调度器

摘要: spark缓存策略 常用:memory_only和memory_and_disk_ser RDD容错 血统(lineage)类似于人类的进化,有一系列的依赖 粗粒度:只是记录过程; 细粒度:每一条数据都会保存副本 宽依赖和窄依赖 宽依赖:一对多;窄依赖:一对一 部分术语解释 resouceManag 阅读全文

posted @ 2022-10-26 15:07 不想写代码的小玉 阅读(28) 评论(0) 推荐(0) 编辑

Spark算子、累加器、blockmanager

摘要: Spark算子 算子分为转换算子(transformation)和行为算子(action) 转换算子:转换算子是懒执行的,需要由Action算子触发执行 行为算子:每个Action算子会触发一个Job Spark的程序的层级划分:Application --> Job --> Stage --> T 阅读全文

posted @ 2022-10-26 10:11 不想写代码的小玉 阅读(54) 评论(0) 推荐(0) 编辑

导航