上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 45 下一页
摘要: shuffle概览 shuffle过程概览 shuffle数据流概览 shuffle数据流 shuffle工作流程 在运行job时,spark是一个stage一个stage执行的。先把任务分成stage,在任务提交阶段会把任务形成taskset,在执行任务。 spark的DAGScheduler根据 阅读全文
posted @ 2018-06-25 22:26 大葱拌豆腐 阅读(766) 评论(0) 推荐(0)
摘要: 本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的 阅读全文
posted @ 2018-06-25 22:22 大葱拌豆腐 阅读(797) 评论(1) 推荐(0)
摘要: Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下, 阅读全文
posted @ 2018-06-25 21:45 大葱拌豆腐 阅读(55277) 评论(5) 推荐(15)
摘要: 这篇文章会详细介绍,Sort Based Shuffle Write 阶段是如何进行落磁盘的 流程分析 入口处: runTask对应的代码为: 这里manager 拿到的是 我们看他是如何拿到可以写磁盘的那个sorter的。我们分析的线路假设需要做mapSideCombine 接着将map的输出放到 阅读全文
posted @ 2018-06-25 21:42 大葱拌豆腐 阅读(1578) 评论(0) 推荐(0)
摘要: 分布式系统里的Shuffle 阶段往往是非常复杂的,而且分支条件也多,我只能按着我关注的线去描述。肯定会有不少谬误之处,我会根据自己理解的深入,不断更新这篇文章。 前言 借用和董神的一段对话说下背景: shuffle共有三种,别人讨论的是hash shuffle,这是最原始的实现,曾经有两个版本,第 阅读全文
posted @ 2018-06-25 21:30 大葱拌豆腐 阅读(561) 评论(0) 推荐(0)
摘要: Broadcast 简单来说就是将数据从一个节点复制到其他各个节点,常见用于数据复制到节点本地用于计算,在前面一章中讨论过Storage模块中BlockManager,Block既可以保存在内存中,也可以保存在磁盘中,当Executor节点本地没有数据,通过Driver去获取数据 Spark的官方描 阅读全文
posted @ 2018-06-25 09:29 大葱拌豆腐 阅读(592) 评论(0) 推荐(0)
摘要: 构造以spark为核心的数据仓库: 0.说明 在大数据领域,hive作为老牌的数据仓库比较流行,spark可以考虑兼容hive。但是如果不想用hive做数据仓库也无妨,大不了我们用spark建立最新的数据仓库。 sparkSQL的发展历程表明了,spark本身就可以做数据仓库,而不需要hive。sp 阅读全文
posted @ 2018-06-22 21:48 大葱拌豆腐 阅读(1546) 评论(0) 推荐(0)
摘要: 导语 Spark2.0于2016-07-27正式发布,伴随着更简单、更快速、更智慧的新特性,spark 已经逐步替代 hadoop 在大数据中的地位,成为大数据处理的主流标准。本文主要以代码和绘图的方式结合,对运行架构、RDD 的实现、spark 作业原理、Sort-Based Shuffle 的存 阅读全文
posted @ 2018-06-22 21:41 大葱拌豆腐 阅读(404) 评论(0) 推荐(0)
摘要: Storage模块 在Spark中提及最多的是RDD,而RDD所交互的数据是通过Storage来实现和管理 Storage模块整体架构 1. 存储层 在Spark里,单节点的Storage的管理是通过block来管理的,每个Block的存储可以在内存里或者在磁盘中,在BlockManager里既可以 阅读全文
posted @ 2018-06-22 17:19 大葱拌豆腐 阅读(682) 评论(0) 推荐(0)
摘要: 1. 究竟是怎么运行的? 很多的博客里大量的讲了什么是RDD, Dependency, Shuffle.......但是究竟那些Executor是怎么运行你提交的代码段的? 下面是一个日志分析的例子,来自Spark的example def main(args: Array[String]) { va 阅读全文
posted @ 2018-06-22 13:43 大葱拌豆腐 阅读(425) 评论(0) 推荐(0)
上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 45 下一页