会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Syso(Alt+/)Cjs
博客园
首页
新随笔
联系
管理
订阅
08 2019 档案
Spark作业执行原理(五)——执行任务
摘要:在Spark消息通信原理(三)(https://www.cnblogs.com/SysoCjs/p/11355900.html)中第(6)点提到过,Executor是任务执行的容器,executor接收到LaunchTask消息之后(其实是GoraseGrainedExecutorBackend接收
阅读全文
posted @
2019-08-15 11:43
KamShing
阅读(284)
评论(0)
推荐(0)
Spark作业执行原理(四)——提交任务
摘要:首先熟悉一下该阶段的一些重要方法的调用关系图: 在上一篇提交调度阶段中,提到:当该阶段不存在父调度阶段时,就会调用DAGScheduler的submitMissingTasks方法。这个方法就是触发任务的提交。在方法中,会根据调度阶段Partition个数拆分对应的个数的任务,一个partition
阅读全文
posted @
2019-08-15 11:38
KamShing
阅读(355)
评论(0)
推荐(0)
Spark的TaskSetManager(任务管理器)的排序算法
摘要:Spark作业执行中,有一个步骤是给任务进行资源分配,实际上这些任务由一些任务管理器TaskSetManager负责管理,资源分配过程中,会先根据某种排序算法排好序,然后根据就近原则给任务进行资源分配。那么关于TaskSetManager的排序是根据哪个算法呢?现在就来介绍。 排序算法由两种调度策略
阅读全文
posted @
2019-08-15 11:37
KamShing
阅读(300)
评论(0)
推荐(0)
Spark作业执行原理(三)——提交调度阶段
摘要:在上一篇划分调度阶段中的handleJobSubmitted方法中,提到finalStage的生成,在生成finalStage的同时,建立起所有Stage的依赖关系,然后通过finalStage生成一个作业实例,在该作业实例中按照顺序提交调度阶段进行执行,在执行过程中监听总线获取作业、阶段执行的情况
阅读全文
posted @
2019-08-15 09:07
KamShing
阅读(344)
评论(0)
推荐(0)
Spark作业执行原理(二)——划分调度阶段
摘要:Spark调度阶段的划分是由DAGScheduler实现,DAGScheduler会从最后一个RDD出发,根据RDD的lineage使用广度优先算法遍历整个依赖树(总共使用了两次,一次是遍历区分ResultStage范围;另一次则是遍历获取ShuffleMapStage划分依据,用来划分每个Shuf
阅读全文
posted @
2019-08-15 08:37
KamShing
阅读(590)
评论(0)
推荐(0)
Spark消息通信原理(三)——Spark运行时消息通信
摘要:一、Spark的应用程序执行过程: 在Spark中,每一个“作业”称为一个应用程序(Application),每一个Application都必须有一个SparkContext,相当于application的入口,或者理解为环境。当用户(Client)提交应用程序(Application)时,该app
阅读全文
posted @
2019-08-13 13:39
KamShing
阅读(614)
评论(0)
推荐(0)
Spark消息通信原理(二)——Spark启动消息通信
摘要:Spark启动过程中,主要是进行Master和Worker之间的通信。 首先,由Worker节点向Master发送注册信息,然后,Master处理完毕,返回注册成功或者失败消息,如果注册成功,Worker会定时发送心跳给Master。 具体过程如下: 当master节点启动后,随之启动各worker
阅读全文
posted @
2019-08-13 13:21
KamShing
阅读(412)
评论(0)
推荐(0)
浅谈数据仓库的ETL
摘要:一、基本概念 ETL,它是Extract、Transform、Load三个单词的首写字母。ETL是建立数据仓库最重要的处理过程,也是工作量最大的环节,一般会占到整个数据仓库建立的一半工作量。 建立一个数据仓库,就是要把来自多个异构的源系统的数据集成在一起,然后放置于一个集中的位置,用于数据分析。 二
阅读全文
posted @
2019-08-13 12:19
KamShing
阅读(2115)
评论(0)
推荐(0)
Spark消息通信原理(一)——Spark消息通信架构
摘要:在Spark中定义了通信框架的接口,这些接口中调用了Netty的具体方法(在spark2.x前,使用的是Akka)。各接口和实现类的关系如下图所示。 将终端(EndPoint)注册到Rpc环境中: 在各个模块中,如DriverEndPoint、ClientEndPoint、Master、Worker
阅读全文
posted @
2019-08-13 12:17
KamShing
阅读(692)
评论(0)
推荐(0)
Spark——传递函数与闭包
摘要:在Scala中,你可以在任何作用于内定义函数,在函数体内,可以访问相应作用域内的任何变量;还不止,你的函数还可以在变量不再处于作用于内的时候被调用,这就是闭包的最基本的理解。 一、transform、action算子的函数参数 在spark集群中,spark应用由负责运行用户编写的main函数,以及
阅读全文
posted @
2019-08-13 12:09
KamShing
阅读(1156)
评论(10)
推荐(1)
公告