摘要:
shuffle概览 shuffle过程概览 shuffle数据流概览 shuffle数据流 shuffle工作流程 在运行job时,spark是一个stage一个stage执行的。先把任务分成stage,在任务提交阶段会把任务形成taskset,在执行任务。 spark的DAGScheduler根据 阅读全文
posted @ 2018-06-25 22:26
大葱拌豆腐
阅读(766)
评论(0)
推荐(0)
摘要:
本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的 阅读全文
posted @ 2018-06-25 22:22
大葱拌豆腐
阅读(797)
评论(1)
推荐(0)
摘要:
Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下, 阅读全文
posted @ 2018-06-25 21:45
大葱拌豆腐
阅读(55277)
评论(5)
推荐(15)
摘要:
这篇文章会详细介绍,Sort Based Shuffle Write 阶段是如何进行落磁盘的 流程分析 入口处: runTask对应的代码为: 这里manager 拿到的是 我们看他是如何拿到可以写磁盘的那个sorter的。我们分析的线路假设需要做mapSideCombine 接着将map的输出放到 阅读全文
posted @ 2018-06-25 21:42
大葱拌豆腐
阅读(1578)
评论(0)
推荐(0)
摘要:
分布式系统里的Shuffle 阶段往往是非常复杂的,而且分支条件也多,我只能按着我关注的线去描述。肯定会有不少谬误之处,我会根据自己理解的深入,不断更新这篇文章。 前言 借用和董神的一段对话说下背景: shuffle共有三种,别人讨论的是hash shuffle,这是最原始的实现,曾经有两个版本,第 阅读全文
posted @ 2018-06-25 21:30
大葱拌豆腐
阅读(561)
评论(0)
推荐(0)
摘要:
Broadcast 简单来说就是将数据从一个节点复制到其他各个节点,常见用于数据复制到节点本地用于计算,在前面一章中讨论过Storage模块中BlockManager,Block既可以保存在内存中,也可以保存在磁盘中,当Executor节点本地没有数据,通过Driver去获取数据 Spark的官方描 阅读全文
posted @ 2018-06-25 09:29
大葱拌豆腐
阅读(592)
评论(0)
推荐(0)
浙公网安备 33010602011771号