小记--------spark内核架构原理分析

首先会将jar包上传到机器（服务器上）

1.在这台机器上会产生一个Application（也就是自己的spark程序）

2.然后通过spark-submit(shell) 提交程序的时候

2.1会启动一个driver（进程）：spark-submit使用我们之前一直使用的那种提交模式去提交的时候，我们之前的提交模式，叫做Standalone，其实会通过反射的方式，创建和构造一个DriverActor进程出来

driver进程会执行我们的Application应用程序（也就是我们自己编写的代码）

我们在编写的所有spark应用程序的第一行：都是下构造sparkconf和SparkContext

2.1.1SparkContext：在初始化的时候，做的最重要的两件事就是构造出来DAGScheduler和TaskScheduler

2.1.1.2DAGScheduler

2.1.1.2.1然后开始继续执行我们自己编写的代码。

每当执行到一个action算子就会生成一个job。并且把这个job提交给DAGScheduler

2.1.1.2.2而此时DAGScheduler会将job划分为多个stage，然后每个stage创建一个Taskset

2.1.1.2.3并且会把Taskset提交到 TaskScheduler上

2.1.1.2.4而TaskScheduler会把Taskset里的每一个task提交到Executor上

2.1.1.2.5此时的Executor中会有一个线程池。当Executor每接收到一个task时，都会用TaskRunner来封装task，然后从线程池里取出一个线程，执行这个task

TaskRunner：会将我们编写的代码，也就是执行的算子以及函数，拷贝、反序列化，然后执行task

Task有两种：ShuffleMapTask和ResultTask，只有最后一个stage是ResultTask,之前的所有stage都是ShuffleMapTask。

所以最后整个spark应用程序的执行，就是stage分批次作为taskset提交到Executor执行，每个task针对RDD的一个partition，并行的执行我们定义的算子和函数。以此类推知道所有操作执行完成为止

2.1.1.1TaskScheduler（有自己的后台进程）

TaskScheduler实际上，会负责通过它对应的一个后台进程，去连接Master

然后向Master注册Application

2.1.1.1.1Master

当master接收到注册的Application时，会使用自己的资源调度算法，在spark集群的worker上，为这个application启动多个Executor

2.1.1.1.2Worker

而此时Worker会为Application启动Executor（进程）

2.1.1.1.3Executor

而当executor启动之后，会自己反向注册到TaskScheduler上去

当所有的Executor都反向注册到Driver上之后，Driver结束SparkContext初始化，

posted @ 2019-11-20 23:38 于二黑阅读(144) 评论(0) 编辑收藏举报

刷新页面返回顶部

于二黑