摘要: spark的任务调度系统如下所示:从上图中可以看出来由RDD Objects产生DAG,然后进入了DAGScheduler阶段,DAGScheduler是面向state的高层次的调度器,DAGScheduler把DAG拆分成很多的tasks,每组的tasks都是一个state,每当遇到shuffle... 阅读全文
posted @ 2015-01-18 13:35 stark_summer 阅读(248) 评论(0) 推荐(0)
摘要: spark核心组件如下所示:在SparkContext初始化的时候,会初始化一系列内容:查看内存使用情况:创建和启动scheduler:集群核心组件中的Block tracker是用于block和partition对应关系的管理。集群核心组件中的shuffle tracker是用于记录shuffle... 阅读全文
posted @ 2015-01-18 09:46 stark_summer 阅读(208) 评论(0) 推荐(0)
摘要: Spark集群预览:官方文档对spark集群的初步描述如下,这是一个典型的主从结构:官方文档对spark集群中的一些关键点给出详细的指导:其Worker的定义如下所示:需要注意的是Spark Driver所在的集群需要和Spark集群最好位于同一个网络环境中,因为Driver中的SparkConte... 阅读全文
posted @ 2015-01-18 09:15 stark_summer 阅读(154) 评论(0) 推荐(0)
摘要: Application:Application是创建了SparkContext实例对象的spark用户,包含了Driver程序:Spark-shell是一个应用程序,因为spark-shell在启动的时候创建了一个SparkContext对象,其名称为sc:Job:和Spark的action相对应,... 阅读全文
posted @ 2015-01-18 09:01 stark_summer 阅读(196) 评论(0) 推荐(0)