7.Spark SQL

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

SparkSQL的前身是Shark，是给MapReduce的技术人员提供快速上手的工具。Hive是基于Hadoop之上的一个开源的工具，它提供的就是类似于SQL的一种HQL语言，它的好处就是可以直接把你的SQL语句转换成MapReduce作业，然后提交在集群上运行；但MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低运行效率。
Shark是Spark生态环境的组件之一，是基于Hive所开发的工具。Shark的出现，使得SQL-on-Hadoop的性能比Hive有了很大的提高。Shark对于Hive的太多依赖制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。SparkSQL抛弃原有的Shark代码，汲取了Shark的一些优点。由于摆脱了对Hive的依赖性，SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便：SparkSQL不但兼容Hive，还可以从RDD、parquet文件、JSON文件中获取数据，未来版本甚至支持获取RDBMS数据以及Cassandra等NOSQL数据。

2. 简述RDD 和DataFrame的联系与区别。

区别：

DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列都带有名称和类型，这就是Schema元信息，这使得Spark框架可以获取更多的数据结构信息，从而对在DataFrame背后的数据源以及作用于DataFrame之上数据变换进行了针对性的优化，最终达到大幅提升计算效率。
RDD是分布式的Java对象的集合，虽然它以Person为类型参数，但是对象内部之间的结构相对于Spark框架本身是无法得知的，这样在转换数据形式时效率相对较低。

3.DataFrame的创建与保存

创建people.txt文件和people.json文件

1)vim people.json:

2)vim people.txt:

DataFrame创建

观察从不同类型文件创建DataFrame有什么异同?
txt文件：创建的DataFrame数据没有结构
json文件：创建的DataFrame数据有结构

同时创建RDD

DataFrame保存

4.PySpark-DataFrame各种常用操作

基于df的操作：

打印数据 df.show()默认打印前20条数
打印概要 df.printSchema()
查询总行数 df.count()
df.head(3) #list类型，list中每个元素是Row类
输出全部行 df.collect() #list类型，list中每个元素是Row类
查询概况 df.describe().show()
取列 df[‘name’], df.name, df[1]

选择 df.select() 每个人的年龄+1
筛选 df.filter() 20岁以上的人员信息
筛选年龄为空的人员信息
分组df.groupBy() 统计每个年龄的人数
排序df.sortBy() 按年龄进行排序

基于spark.sql的操作：
创建临时表虚拟表 df.registerTempTable('people')
spark.sql执行SQL语句 spark.sql('select name from people').show()

5. Pyspark中DataFrame与pandas中DataFrame

分别从文件创建DataFrame
比较两者的异同
pandas中DataFrame转换为Pyspark中DataFrame
Pyspark中DataFrame转换为pandas中DataFrame

6.从RDD转换得到DataFrame

6.1 利用反射机制推断RDD模式

创建RDD sc.textFile(url).map()，读文件，分割数据项
每个RDD元素转换成 Row
由Row-RDD转换到DataFrame

6.2 使用编程方式定义RDD模式

生成“表头”
生成“表中的记录”
把“表头”和“表中的记录”拼装在一起

7.选择题：

1.单选(2分)‍ 关于Shark，下面描述正确的是：C
A. Shark提供了类似Pig的功能
B. Shark把SQL语句转换成MapReduce作业
C. Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑
D. Shark的性能比Hive差很多
2.单选(2分) 下面关于Spark SQL架构的描述错误的是：D
A. 在Shark原有的架构上重写了逻辑执行计划的优化部分，解决了Shark存在的问题
B. Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据
C. Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责
D. Spark SQL执行计划生成和优化需要依赖Hive来完成
3.单选(2分)‌ 要把一个DataFrame保存到people.json文件中，下面语句哪个是正确的：A
A. df.write.json("people.json")
B. df.json("people.json")
C. df.write.format("csv").save("people.json")
D. df.write.csv("people.json")
4.多选(3分) Shark的设计导致了两个问题：AC
A. 执行计划优化完全依赖于Hive，不方便添加新的优化策略
B. 执行计划优化不依赖于Hive，方便添加新的优化策略
C. Spark是线程级并行，而MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支
D. Spark是进程级并行，而MapReduce是线程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支
5.多选(3分)‌ 下面关于为什么推出Spark SQL的原因的描述正确的是：AB
A. Spark SQL可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系操作
B. 可以支持大量的数据源和数据分析算法，组合使用Spark SQL和Spark MLlib，可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力
C. Spark SQL无法对各种不同的数据源进行整合
D. Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力
6.多选(3分)‌ 下面关于DataFrame的描述正确的是：ABCD
A. DataFrame的推出，让Spark具备了处理大规模结构化数据的能力
B. DataFrame比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能
C. Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询
D. DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息
7.多选(3分) 要读取people.json文件生成DataFrame，可以使用下面哪些命令：AC
A. spark.read.json("people.json")
B. spark.read.parquet("people.json")
C. spark.read.format("json").load("people.json")
D. spark.read.format("csv").load("people.json")
8.单选(2分) 以下操作中，哪个不是DataFrame的常用操作：D
A. printSchema()
B. select()
C. filter()
D. sendto()
9.多选(3分) 从RDD转换得到DataFrame包含两种典型方法，分别是：AB
A. 利用反射机制推断RDD模式
B. 使用编程方式定义RDD模式
C. 利用投影机制推断RDD模式
D. 利用互联机制推断RDD模式
10.多选(3分)‍ 使用编程方式定义RDD模式时，主要包括哪三个步骤：ABD
A. 制作“表头”
B. 制作“表中的记录”
C. 制作映射表
D. 把“表头”和“表中的记录”拼装在一起

posted @ 2022-05-10 18:30 丘桂玲阅读(140) 评论(0) 收藏举报

刷新页面返回顶部

丘桂玲