摘要: 概览Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFra... 阅读全文
posted @ 2017-03-23 13:00 柚子=_= 阅读(479) 评论(0) 推荐(0)
摘要: 一. Spark基础知识 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架dfsSpark基于mapreduce算法实现的分布式计算,拥有Had... 阅读全文
posted @ 2017-03-23 11:51 柚子=_= 阅读(159) 评论(0) 推荐(0)
摘要: 一般来说任意一个sql子系统都需要有parser,optimizer,execution三大功能模块,在spark中这些又都是如何实现的呢,这些实现又有哪些亮点和问题?带着这些疑问,本文准备做一些比较深入的分析。... 阅读全文
posted @ 2017-03-23 11:48 柚子=_= 阅读(338) 评论(0) 推荐(0)
摘要: 一. 整体架构总结为如下图: Dataframe本质是 数据 + 数据的描述信息(结构元信息)所有的上述SQL及dataframe操作最终都通过Catalyst翻译成spark程序RDD操作代码 spark... 阅读全文
posted @ 2017-03-23 11:28 柚子=_= 阅读(881) 评论(0) 推荐(0)
摘要: 一. spark-sql1.in 不支持子查询 eg. select * from src where key in(select key from test);支持查询个数 eg. select * from ... 阅读全文
posted @ 2017-03-23 11:23 柚子=_= 阅读(6216) 评论(0) 推荐(0)