7.Spark SQL

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

Spark SQL的数据，不是使用Java对象的方式来进行存储，而是使用面向列的内存存储的方式来进行存储。每一列作为一个数据存储的单位。从而大大优化了内存使用的效率。采用了内存列存储之后，减少了对内存的消耗，也就避免了gc大量数据的性能开销。

在大数据量中，面向纵列比横列而言，大大的减少了对象的产生，从而大大减少了因为多个对象而产生的指针占用字节和因对象过多导致的GC性能开销

2. 简述RDD 和DataFrame的联系与区别。

DataFrame是一种以RDD为基础的分布式数据集DataFrame可以完成RDD的绝大多数功能，在开发使用时，也可以调用方法将RDD和DataFrame进行相互转换。

RDD是分布式的Java对象的集合，它以Person为类型参数，而对象内部之间的结构相对于Spark框架本身是无法得知的，这样在转换数据形式时效率相对较低。

3.1 PySpark-DataFrame创建：

spark.read.text(url)
spark.read.json(url)

spark.read.format("text").load("people.txt")
spark.read.format("json").load("people.json")

描述从不同文件类型生成DataFrame的区别。

用相同的txt或json文件，同时创建RDD，比较RDD与DataFrame的区别。

DataFrame是一种以RDD为基础的分布式数据集DataFrame可以完成RDD的绝大多数功能，在开发使用时，也可以调用方法将RDD和DataFrame进行相互转换。
RDD是分布式的Java对象的集合，它以Person为类型参数，而对象内部之间的结构相对于Spark框架本身是无法得知的，这样在转换数据形式时效率相对较低。

3.2 DataFrame的保存

df.write.text(dir)
df.write.json(dri)
df.write.format("text").save(dir)
df.write.format("json").save(dir)
df.write.format("json").save(dir)

4. PySpark-DataFrame各种常用操作

基于df的操作：
打印数据 df.show()默认打印前20条数据

打印概要 df.printSchema()

查询总行数 df.count()

df.head(3) #list类型，list中每个元素是Row类

输出全部行 df.collect() #list类型，list中每个元素是Row类

查询概况 df.describe().show()

取列 df[‘name’], df.name, df[1]

选择 df.select() 每个人的年龄+1

筛选 df.filter() 20岁以上的人员信息

筛选年龄为空的人员信息

分组df.groupBy() 统计每个年龄的人数

排序df.sortBy() 按年龄进行排序

基于spark.sql的操作：

创建临时表虚拟表 df.registerTempTable('people')

spark.sql执行SQL语句 spark.sql('select name from people').show()

5. Pyspark中DataFrame与pandas中DataFrame

分别从文件创建DataFrame

比较两者的异同

pandas中DataFrame创建出来的DataFrame有index索引，而Pyspark中DataFrame创建出来的没有。
行列结构不同，pyspark中用的是Pyspark.sql.Row和Pyspark.sql.Column，而pandas中用的是Pandas.Series
spark中rdd是不可变得，因此dataFrame也是不可变的。而pandas中是可变得
pandas没有树结构输出，而spark中有

pandas中DataFrame转换为Pyspark中DataFrame

Pyspark中DataFrame转换为pandas中DataFrame

选择题：

1单选(2分)关于Shark，下面描述正确的是：C
A.Shark提供了类似Pig的功能
B.Shark把SQL语句转换成MapReduce作业
C.Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑
D.Shark的性能比Hive差很多

2单选(2分)下面关于Spark SQL架构的描述错误的是：D
A.在Shark原有的架构上重写了逻辑执行计划的优化部分，解决了Shark存在的问题
B.Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据
C.Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责
D.Spark SQL执行计划生成和优化需要依赖Hive来完成

3单选(2分)要把一个DataFrame保存到people.json文件中，下面语句哪个是正确的：A
A.df.write.json("people.json")
B.df.json("people.json")
C.df.write.format("csv").save("people.json")
D.df.write.csv("people.json")

4多选(3分)Shark的设计导致了两个问题：AC
A.执行计划优化完全依赖于Hive，不方便添加新的优化策略
B.执行计划优化不依赖于Hive，方便添加新的优化策略
C.Spark是线程级并行，而MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支
D.Spark是进程级并行，而MapReduce是线程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

5 多选(3分)下面关于为什么推出Spark SQL的原因的描述正确的是：AB
A.Spark SQL可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系操作
B.可以支持大量的数据源和数据分析算法，组合使用Spark SQL和Spark MLlib，可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力
C.Spark SQL无法对各种不同的数据源进行整合
D.Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力

6多选(3分)下面关于DataFrame的描述正确的是：ABCD
A.DataFrame的推出，让Spark具备了处理大规模结构化数据的能力
B.DataFrame比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能
C.Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询
D.DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息

7多选(3分)要读取people.json文件生成DataFrame，可以使用下面哪些命令：AC
A.spark.read.json("people.json")
B.spark.read.parquet("people.json")
C.spark.read.format("json").load("people.json")
D.spark.read.format("csv").load("people.json")

8单选(2分)以下操作中，哪个不是DataFrame的常用操作：D
A.printSchema()
B.select()
C.filter()
D.sendto()

9多选(3分)从RDD转换得到DataFrame包含两种典型方法，分别是：AB
A.利用反射机制推断RDD模式
B.使用编程方式定义RDD模式
C.利用投影机制推断RDD模式
D.利用互联机制推断RDD模式

10多选(3分)使用编程方式定义RDD模式时，主要包括哪三个步骤：ABD
A.制作“表头”
B.制作“表中的记录”
C.制作映射表
D.把“表头”和“表中的记录”拼装在一起

posted @ 2022-05-11 20:44 ../已被使用阅读(59) 评论(0) 收藏举报

刷新页面返回顶部

cinaMashiro