Spark（七）Spark运行架构

运行架构

Driver在Spark作业执行时主要负责

Executor有两个核心功能

负责运行组成Spark应用的任务，并将结果返回给驱动器进程
它们通过自身的块管理器（Block Manager）为用户程序中要求缓存的RDD提供内存式存储，RDD是直接缓存在Executor进程内的，因此任务可以在运行时充分利用缓存数据加速运算

Hadoop用户向YARN集群提交应用程序时,提交程序中应该包含ApplicationMaster，用于向资源调度器申请执行任务的资源容器Container，运行用户自己的程序任务job，监控整个任务的执行，跟踪整个任务的状态，处理任务失败等异常情况
ResourceManager（资源）和Driver（计算）之间的解耦合靠的就是ApplicationMaster

Spark应用程序提交到Yarn环境中执行的时候，一般会有两种部署执行的方式：Client和Cluster，两种模式主要区别在于：Driver程序的运行节点位置

Client模式将用于监控和调度的Driver模块在客户端执行，而不是在Yarn中，所以一般用于测试
Driver在任务提交的本地机器上运行
Driver启动后会和ResourceManager通讯申请启动ApplicationMaster
ResourceManager分配container，在合适的NodeManager上启动 ApplicationMaster，负责向ResourceManager申请Executor内存
ResourceManager接到ApplicationMaster的资源申请后会分配container，然后ApplicationMaster在资源分配指定的NodeManager上启动Executor进程
Executor进程启动后会向Driver反向注册，Executor全部注册完成后Driver开始执行main函数
之后执行到Action算子时，触发一个Job，并根据宽依赖开始划分stage，每个stage生成对应的TaskSet，之后将task分发到各个Executor上执行

Cluster模式将用于监控和调度的Driver模块启动在Yarn集群资源中执行，一般应用于实际生产环境
在YARN Cluster模式下，任务提交后会和ResourceManager通讯申请启动ApplicationMaster
随后ResourceManager分配container，在合适的NodeManager上启动ApplicationMaster，此时的ApplicationMaster就是Driver
Driver启动后向ResourceManager申请Executor内存，ResourceManager接到ApplicationMaster的资源申请后会分配container，然后在合适的NodeManager上启动Executor进程
Executor进程启动后会向Driver反向注册，Executor全部注册完成后Driver开始执行main函数
之后执行到Action算子时，触发一个Job，并根据宽依赖开始划分stage，每个stage生成对应的TaskSet，之后将task分发到各个Executor上执行

posted @ 2024-09-23 17:38 一年都在冬眠阅读(250) 评论(0) 收藏举报

刷新页面返回顶部