累吗?累就对了,舒服是留给死人的...

.....说人好比盆中鲜花,生活就是一团乱麻,房屋修的再好那只是个临时住所,这个小盒才是你永久的家呀!
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2017年9月26日

摘要: 上周Spark1.2刚发布,周末在家没事,把这个特性给了解一下,顺便分析下源码,看一看这个特性是如何设计及实现的。 /** Spark SQL源码分析系列文章*/ (Ps: External DataSource使用篇地址:Spark SQL之External DataSource外部数据源(一)示 阅读全文

posted @ 2017-09-26 13:58 Aaron-Mhs 阅读(752) 评论(0) 推荐(0)

摘要: /** Spark SQL源码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。 那么基于以上存储结构,我们查询cache在jvm内的数据又是如何查询的,本文将揭示查询In-Memory Data的方式。 一、引子 本例使用 阅读全文

posted @ 2017-09-26 13:57 Aaron-Mhs 阅读(886) 评论(0) 推荐(0)

摘要: /** Spark SQL源码分析系列文章*/ Spark SQL 可以将数据缓存到内存中,我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中,来极大的提高查询效率。 这就涉及到内存中的数据的存储形式,我们知道基于关系型的数据可以存储为基于行存储结构 或 者基于 阅读全文

posted @ 2017-09-26 13:56 Aaron-Mhs 阅读(1069) 评论(0) 推荐(0)

摘要: /** Spark SQL源码分析系列文章*/ 在SQL的世界里,除了官方提供的常用的处理函数之外,一般都会提供可扩展的对外自定义函数接口,这已经成为一种事实的标准。 在前面Spark SQL源码分析之核心流程一文中,已经介绍了Spark SQL Catalyst Analyzer的作用,其中包含了 阅读全文

posted @ 2017-09-26 13:55 Aaron-Mhs 阅读(681) 评论(0) 推荐(0)

摘要: /** Spark SQL源码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源码分析之Physical Plan,本文将介绍Physical Plan的toRDD的具体实现细节: 我们都知道一段sql,真正的执行是当你调用它的collect()方法才会执行Spark Job,最后 阅读全文

posted @ 2017-09-26 13:54 Aaron-Mhs 阅读(694) 评论(0) 推荐(0)

摘要: /** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer 以及核心类库TreeNode,本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimizer在Catalyst里的表现方式 阅读全文

posted @ 2017-09-26 13:52 Aaron-Mhs 阅读(652) 评论(0) 推荐(0)

摘要: /** Spark SQL源码分析系列文章*/ 前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程,以及Catalyst包内的SqlParser,Analyzer和Optimizer,最后要介绍一下Catalyst里最后的一个Plan了,即Physical Plan。物理计 阅读全文

posted @ 2017-09-26 13:52 Aaron-Mhs 阅读(1122) 评论(0) 推荐(0)

摘要: /** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer,本来打算直接写Optimizer的,但是发现忘记介绍TreeNode这个Catalyst的核心概念,介绍这个可以更好的理解Optimizer是如 阅读全文

posted @ 2017-09-26 13:51 Aaron-Mhs 阅读(737) 评论(0) 推荐(0)

摘要: /** Spark SQL源码分析系列文章*/ 前面几篇文章讲解了Spark SQL的核心执行流程和Spark SQL的Catalyst框架的Sql Parser是怎样接受用户输入sql,经过解析生成Unresolved Logical Plan的。我们记得Spark SQL的执行流程中另一个核心的 阅读全文

posted @ 2017-09-26 13:50 Aaron-Mhs 阅读(492) 评论(0) 推荐(0)

摘要: /** Spark SQL源码分析系列文章*/ Spark SQL的核心执行流程我们已经分析完毕,可以参见Spark SQL核心执行流程,下面我们来分析执行流程中各个核心组件的工作职责。 本文先从入口开始分析,即如何解析SQL文本生成逻辑计划的,主要设计的核心组件式SqlParser是一个SQL语言 阅读全文

posted @ 2017-09-26 13:48 Aaron-Mhs 阅读(1368) 评论(0) 推荐(0)

摘要: /** Spark SQL源码分析系列文章*/ 自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst,到至今1年多了,Spark SQL的贡献者从几人到了几十人,而且发展速度异常迅猛,究其原因,个人认为有以下2点: 1、整合:将SQL类型的查询语言整 阅读全文

posted @ 2017-09-26 13:47 Aaron-Mhs 阅读(595) 评论(0) 推荐(0)

摘要: 从决定写Spark SQL源码分析的文章,到现在一个月的时间里,陆陆续续差不多快完成了,这里也做一个整合和索引,方便大家阅读,这里给出阅读顺序 :) 第一篇 Spark SQL源码分析之核心流程 第二篇 Spark SQL Catalyst源码分析之SqlParser 第三篇 Spark SQL C 阅读全文

posted @ 2017-09-26 13:46 Aaron-Mhs 阅读(310) 评论(0) 推荐(0)