摘要: Spark Shuffle 这一篇主要讲 Spark 中的 Shuffle 机制. Shuffle Write Shuffle Read 将 job 划分成多个 task 后, stage 内的一个 task 可以在一个节点上完成计算, task 内以来的数据可以直接存储在当前结点上 (内存或者磁盘中). 但是 stage 间 阅读全文
posted @ 2022-10-31 15:52 Milkha 阅读(28) 评论(2) 推荐(0) 编辑
摘要: Spark 逻辑处理流程与物理执行计划 一直以来都想了解一下 Spark 的运行原理, 但一直都浮于表面, 难以深入. 去年买了一本 《大数据处理框架 Apache Spark 设计与实现》, 但是一直没时间好好看看, 最近抽时间过了一下这本书, 在此记录一下. 这一篇主要讲 Spark 中逻辑处理流程时怎么生成的, 以及在逻辑处理流程的 阅读全文
posted @ 2022-10-31 15:29 Milkha 阅读(150) 评论(0) 推荐(0) 编辑
摘要: Spark Overview 一直以来都想了解一下 Spark 的运行原理, 但一直都浮于表面, 难以深入. 去年买了一本 《大数据处理框架 Apache Spark 设计与实现》, 但是一直没时间好好看看, 最近抽时间过了一下这本书, 在此记录一下. 先大致了解一下 Spark. Introducion Spark Appli 阅读全文
posted @ 2022-10-31 15:28 Milkha 阅读(23) 评论(0) 推荐(0) 编辑