2018年8月2日

摘要: Shared Variables Spark does provide two limited types of shared variables for two common usage patterns: broadcast variables and accumulators. Broadca 阅读全文

posted @ 2018-08-02 16:47 打杂滴 阅读(167) 评论(0) 推荐(0)

摘要: RDD运行原理 1.创建 RDD 对象 2.DAGScheduler模块介入运算,计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage,划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间 阅读全文

posted @ 2018-08-02 15:20 打杂滴 阅读(139) 评论(0) 推荐(0)

摘要: stage的划分是以shuffle操作作为边界的,遇到一个宽依赖就分一个stage 一个Job会被拆分为多组Task,每组任务被称为一个Stage就像Map Stage, Reduce Stage。Stage的划分在RDD的论文中有详细的介绍,简单的说是以shuffle和result这两种类型来划分 阅读全文

posted @ 2018-08-02 11:11 打杂滴 阅读(1025) 评论(0) 推荐(0)


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3