Spark内容
1.Spark的内存模型 2.Spark的执行过程 3.SparkSQL的执行过程
本次主要理解和整理执行过程
1.简单介绍Spark的执行过程
概念: SparkContext-- Driver-- Executor- DAG Scheduler - TaskScheduler
过程:
1.构建Spark Application 的运行环境,启动 SparkContext
2. SparkContext 向资源管理器 ResourceManager(可以是Standalone、Mesos或YARN)注册并申请运行Executor执行器资源; ResourceManager 分配Executor资源并启动 StandaloneExecutorBackend
3. SparkContext 构建成DAG图,将DAG图分解成Stage,并把Taskset发送给Task Scheduler。Executor向SparkContext申请Task,Task Scheduler 将Task发放给Executor运行
4.SparkContext将应用程序代码发放给Executor。
5.StandaloneExecutorBackend会建立Executor线程池,开始执行Task,并向SparkContext报告,直至Task运行完毕释放所有资源。
SparkSQL执行过程