7. Spark SQL

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD)，Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrame API和Dataset API三种方式实现对结构化数据的处理。但无论是哪种API或者是编程语言，都是基于同样的执行引擎，因此可以在不同的API之间随意切换。

Spark SQL的前身是 Shark，Shark最初是美国加州大学伯克利分校的实验室开发的Spark生态系统的组件之一，它运行在Spark系统之上，Shark重用了Hive的工作机制，并直接继承了Hive的各个组件， Shark将SQL语句的转换从MapReduce作业替换成了Spark作业，虽然这样提高了计算效率，但由于 Shark过于依赖Hive，因此在版本迭代时很难添加新的优化策略，从而限制了Spak的发展，在2014年，伯克利实验室停止了对Shark的维护，转向Spark SQL的开发。

2.简述RDD 和DataFrame的联系与区别

RDD是Spark对于分布式数据模型的抽象，DF是带数据模式的结构化分布式数据集，类似于传统数据库中的一张表，RDD不带数据模式或者说是泛型的
RDD API的执行引擎是Spark Core，其Spark Core的本质是负责任务的调度、计算、及存储;DF API优化引擎是SparkSQL，包括Catalyst执行过程优化和Tungsten数据结构优化。两者API的区别在于一个提供标量算子一个高阶算子和两者底层优化引擎不一致。
之前子框架如Streaming，mlib,graph都是采用RDD API来编写，现在都是采用DF API来重新编写。
调用DF API生成DF，但DF 的action算子触发执行后最终还是生成RDD，通过Spark Core框架来进行调度计算。DF API+SparkSQL代替之前的RDD API,目的就是为了提供更简单的API，让Spark做统一优化，在rdd计算时更高效.

3. DataFrame的创建与保存

spark.read.text(url)

spark.read.json(url)

spark.read.format("text").load("people.txt")

spark.read.format("json").load("people.json")

描述从不同文件类型生成DataFrame的区别。

用相同的txt或json文件，同时创建RDD，比较RDD与DataFrame的区别。

DataFrame的保存

df.write.text(dir)

df.write.json(dri)

df.write.format("text").save(dir)

df.write.format("json").save(dir)

4.选择题：

4.1单选(2分)‍关于Shark，下面描述正确的是：C

　　A.Shark提供了类似Pig的功能

　　B.Shark把SQL语句转换成MapReduce作业

　　C.Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑

　　D.Shark的性能比Hive差很多

4.2单选(2分)‏下面关于Spark SQL架构的描述错误的是：D

　　A.在Shark原有的架构上重写了逻辑执行计划的优化部分，解决了Shark存在的问题

　　B.Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据

　　C.Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责

　　D.Spark SQL执行计划生成和优化需要依赖Hive来完成

4.3单选(2分)‌要把一个DataFrame保存到people.json文件中，下面语句哪个是正确的：A

　　A.df.write.json("people.json")

　　B.df.json("people.json")

　　C.df.write.format("csv").save("people.json")

　　D.df.write.csv("people.json")

4.4多选(3分)‎Shark的设计导致了两个问题：AC

　　A.执行计划优化完全依赖于Hive，不方便添加新的优化策略

　　B.执行计划优化不依赖于Hive，方便添加新的优化策略

　　C.Spark是线程级并行，而MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

　　D.Spark是进程级并行，而MapReduce是线程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

4.5 多选(3分)‌下面关于为什么推出Spark SQL的原因的描述正确的是：AB

　　A.Spark SQL可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系操作

　　B.可以支持大量的数据源和数据分析算法，组合使用Spark SQL和Spark MLlib，可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力

　　C.Spark SQL无法对各种不同的数据源进行整合

　　D.Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力

4.6多选(3分)‌下面关于DataFrame的描述正确的是：ABCD

　　A.DataFrame的推出，让Spark具备了处理大规模结构化数据的能力

　　B.DataFrame比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能

　　C.Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询

　　D.DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息

4.7多选(3分)‏要读取people.json文件生成DataFrame，可以使用下面哪些命令：AC

　　A.spark.read.json("people.json")

　　B.spark.read.parquet("people.json")

　　C.spark.read.format("json").load("people.json")

　　D.spark.read.format("csv").load("people.json")

5. PySpark-DataFrame各种常用操作

基于df的操作：

打印数据 df.show()默认打印前20条数据

打印概要 df.printSchema()

查询总行数 df.count()

df.head(3) #list类型，list中每个元素是Row类

输出全部行 df.collect() #list类型，list中每个元素是Row类

查询概况 df.describe().show()

取列 df[‘name’], df.name, df[1]

选择 df.select() 每个人的年龄+1

筛选 df.filter() 20岁以上的人员信息

筛选年龄为空的人员信息

分组df.groupBy() 统计每个年龄的人数

排序df.sortBy() 按年龄进行排序

基于spark.sql的操作

创建临时表 df.registerTempTable('people')

spark.sql执行SQL语句 spark.sql('select name from people').show()

pyspark中DataFrame与pandas中DataFrame

分别从文件创建两种DataFrame

查看两种df的区别

pandas中DataFrame转换为Pyspark中DataFrame

Pyspark中DataFrame转换为pandas中DataFrame

6.从RDD转换得到DataFrame

6.1 利用反射机制推断RDD模式

创建RDD sc.textFile(url).map()，读文件，分割数据项

每个RDD元素转换成 Row

由Row-RDD转换到DataFrame

6.2 使用编程方式定义RDD模式

#下面生成“表头”

#下面生成“表中的记录”

#下面把“表头”和“表中的记录”拼装在一起

6.选择题

6.1单选(2分)以下操作中，哪个不是DataFrame的常用操作：D

　　A.printSchema()

　　B.select()

　　C.filter()

　　D.sendto()

6.2多选(3分)‏从RDD转换得到DataFrame包含两种典型方法，分别是：AB

　　A.利用反射机制推断RDD模式

　　B.使用编程方式定义RDD模式

　　C.利用投影机制推断RDD模式

　　D.利用互联机制推断RDD模式

6.3多选(3分)‍使用编程方式定义RDD模式时，主要包括哪三个步骤：ABD

　　A.制作“表头”

　　B.制作“表中的记录”

　　C.制作映射表

　　D.把“表头”和“表中的记录”拼装在一起

posted on 2022-05-11 14:52 yyyy/\ 阅读(44) 评论(0) 收藏举报