1月30总结

今日了解了spark应用阶段

用户程序从最开始的提交到最终的计算执行,需要经历以下几个阶段:
 1)、用户程序创建 SparkContext 时,新创建的 SparkContext 实例会连接到 ClusterManager。 Cluster Manager 会根据用户
提交时设置的 CPU 和内存等信息为本次提交分配计算资源,启动 Executor。
 2)、Driver会将用户程序划分为不同的执行阶段Stage,每个执行阶段Stage由一组完全相同Task组成,这些Task分别作用于待处
理数据的不同分区。在阶段划分完成和Task创建后, Driver会向Executor发送 Task;
 3)、Executor在接收到Task后,会下载Task的运行时依赖,在准备好Task的执行环境后,会开始执行Task,并且将Task的运行状态
汇报给Driver;
 4)、Driver会根据收到的Task的运行状态来处理不同的状态更新。 Task分为两种:一种是Shuffle Map Task,它实现数据的重新
洗牌,洗牌的结果保存到Executor 所在节点的文件系统中;另外一种是Result Task,它负责生成结果数据;
5)、Driver 会不断地调用Task,将Task发送到Executor执行,在所有的Task 都正确执行或者超过执行次数的限制仍然没有执行成
功时停止;
posted @ 2024-01-30 18:29  樱花开到我身边  阅读(10)  评论(0)    收藏  举报