7.Spark SQL

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

　　随着 Spark 的不断发展， Shark 对 Hive 的重度依赖体现在架构上的瓶颈越来越突出。一方面， Hive 的语法解析和查询优化等模块本身针对的是 MapReduce ，限制了在 Spark 系统上的深度优化和维护;另一方面，过度依赖 Hive 制约了 Spark 的“One Stack Rule Them All”既定方针，也制约了技术校中各个组件的灵活集成。在此背景下， Spark SQL 项目被提出来，由 Michael Armbrust 主导开发。Spark SQL 抛弃原有 Shark 的架构方式，但汲取了 Shark 的一些优点，如内存列存储( In-Memory Columnar Storage )、 Hive 兼容性等，重新开发了 SQL 各个模块的代码。由于摆脱了对 Hive 的依赖， SparkSQL 在数据兼容、性能优化、组件扩展方面都得到了极大的提升.在 2014 年 7 月 1 日的 Spark 峰会上， Databricks 公司宣布终止对 Shark 的开发，将后续重点放到 Spark SQL 上。

2. 简述RDD 和DataFrame的联系与区别？

RDD是弹性分布式数据集，数据集的概念比较强一点。容器可以装任意类型的可序列化元素（支持泛型）RDD的缺点是无从知道每个元素的【内部字段】信息。

DataFrame也是弹性分布式数据集，但是本质上是一个分布式数据表，因此称为分布式表更准确。DataFrame每个元素不是泛型对象，而是Row对象。

DataFrame的缺点是Spark SQL DataFrame API 不支持编译时类型安全，因此，如果结构未知，则不能操作数据；同时，一旦将域对象转换为Data frame ，则域对象不能重构。

DataFrame=RDD-【泛型】+schema+方便的SQL操作+【catalyst】优化

3.DataFrame的创建

spark.read.text(url)