7. Spark SQL

1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展

因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用中,经常需要融合关系查询和复杂分析算法(比如机器学习或图像处理),但是,缺少这样的系统。

Spark SQL填补了这个鸿沟:首先,可以提供DataFrame API,可以对内部和外部各种数据源执行各种关系型操作。其次,可以支持大数据中的大量数据源和数据分析算法Spark SQL可以融合:传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力。

2. 简述RDD 和DataFrame的联系与区别

区别:


1. RDD是分布式的java对象的集合,但是对象内部结构对于RDD而言却是不可知的。
2. DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息,相当于关系数据库中的一张表。

联系:


1. 都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利。
2. 都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action才会运算。
3. 都会根据spark的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存溢出
4. 三者都有partition的概念。
5. 三者有许多共同的函数,如filter,排序等。

3.DataFrame的创建与保存

3.1 PySpark-DataFrame创建

  • spark.read.text(url)
file1 = spark.read.text('file:///usr/local/spark/examples/src/main/resources/people.txt')
file1.show()

  

 

 

  • spark.read.json(url) 
file2 = spark.read.json('file:///usr/local/spark/examples/src/main/resources/people.json')
file2.show()

  

 

 

  • spark.read.format("text").load("people.txt")
file3 = spark.read.format("text").load('file:///usr/local/spark/examples/src/main/resources/people.txt')
file3.show()

  

 

 

  • spark.read.format("json").load("people.json")
file4 = spark.read.format("json").load('file:///usr/local/spark/examples/src/main/resources/people.json')
file4.show()

  

 

 

  • 描述从不同文件类型生成DataFrame的区别。

text生成的DataFrame只有值(value),而json的还有键

  • 用相同的txt或json文件,同时创建RDD,比较RDD与DataFrame的区别。
rdd = sc.textFile('file:///usr/local/spark/examples/src/main/resources/people.txt')
>>> rdd
file = spark.read.format("text").load('file:///usr/local/spark/examples/src/main/resources/people.txt')
>>> file

  

 

 

3.2 DataFrame的保存

  • df.write.text(dir)
df1 = spark.read.text('file:///usr/local/spark/examples/src/main/resources/people.txt')
df1.write.text('file:///home/hadoop/kk')

  

 

 

  • df.write.json(dri)
df2 = spark.read.json("file:///usr/local/spark/examples/src/main/resources/people.json")
df2.write.json('file:///home/hadoop/kk1')

  

 

  •  另一种写法

df.write.format("text").save(dir)

df3 = spark.read.text("file:///usr/local/spark/examples/src/main/resources/people.txt")
df3.write.format("text").save('file:///home/hadoop/kk2')

  

df.write.format("json").save(dir)

df4 = spark.read.json("file:///usr/local/spark/examples/src/main/resources/people.json")
df4.write.format("json").save('file:///home/hadoop/kk3')

  

 4.选择题

4.1单选(2分)‍关于Shark,下面描述正确的是:C

A.Shark提供了类似Pig的功能

B.Shark把SQL语句转换成MapReduce作业

C.Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑

D.Shark的性能比Hive差很多

 

4.2单选(2分)‏下面关于Spark SQL架构的描述错误的是:B

A.在Shark原有的架构上重写了逻辑执行计划的优化部分,解决了Shark存在的问题

B.Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据

C.Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责

D.Spark SQL执行计划生成和优化需要依赖Hive来完成

 

4.3单选(2分)‌要把一个DataFrame保存到people.json文件中,下面语句哪个是正确的:A

A.df.write.json("people.json")

B.df.json("people.json")

C.df.write.format("csv").save("people.json")

D.df.write.csv("people.json")

 

4.4多选(3分)‎Shark的设计导致了两个问题:AC

A.执行计划优化完全依赖于Hive,不方便添加新的优化策略

B.执行计划优化不依赖于Hive,方便添加新的优化策略

C.Spark是线程级并行,而MapReduce是进程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

D.Spark是进程级并行,而MapReduce是线程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

 

4.5 多选(3分)‌下面关于为什么推出Spark SQL的原因的描述正确的是:AB

A.Spark SQL可以提供DataFrame API,可以对内部和外部各种数据源执行各种关系操作

B.可以支持大量的数据源和数据分析算法,组合使用Spark SQL和Spark MLlib,可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力

C.Spark SQL无法对各种不同的数据源进行整合

D.Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力

 

4.6多选(3分)‌下面关于DataFrame的描述正确的是:ABCD

A.DataFrame的推出,让Spark具备了处理大规模结构化数据的能力

B.DataFrame比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能

C.Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询

D.DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息

 

4.7多选(3分)‏要读取people.json文件生成DataFrame,可以使用下面哪些命令:AC

A.spark.read.json("people.json")

B.spark.read.parquet("people.json")

C.spark.read.format("json").load("people.json")

D.spark.read.format("csv").load("people.json")

5. PySpark-DataFrame各种常用操作

5.1基于df的操作:

打印数据 df.show()默认打印前20条数据

 

 

 

打印概要 df.printSchema()

 

 

 

查询总行数 df.count()

 

 

 

df.head(3) #list类型,list中每个元素是Row类

 

 

 

输出全部行 df.collect() #list类型,list中每个元素是Row类

 

 

 

查询概况 df.describe().show()

 

 

 

取列 df[‘name’], df.name, df[1]

 

 

 

选择 df.select() 每个人的年龄+1

 

 

筛选 df.filter() 20岁以上的人员信息

 

 

筛选年龄为空的人员信息

 

 

分组df.groupBy() 统计每个年龄的人数

 

 

排序df.sortBy() 按年龄进行排序

 

 

5.2基于spark.sql的操作

创建临时表 df.registerTempTable('people')

 

 

spark.sql执行SQL语句 spark.sql('select name from people').show()

 

 

 

5.3pyspark中DataFrame与pandas中DataFrame

分别从文件创建两种DataFra 

查看两种df的区别

pandas中DataFrame转换为Pyspark中DataFrame

 

 

Pyspark中DataFrame转换为pandas中DataFrame

 

 

6.从RDD转换得到DataFrame

6.1 利用反射机制推断RDD模式

创建RDD sc.textFile(url).map(),读文件,分割数据项

每个RDD元素转换成 Row

由Row-RDD转换到DataFrame

 

 

6.2 使用编程方式定义RDD模式

#下面生成“表头” 

#下面生成“表中的记录” 

#下面把“表头”和“表中的记录”拼装在一起

 

 

7.选择题 

7.1单选(2分)以下操作中,哪个不是DataFrame的常用操作:D

A.printSchema()

B.select()

C.filter()

D.sendto()

 

7.2多选(3分)‏从RDD转换得到DataFrame包含两种典型方法,分别是:AB

A.利用反射机制推断RDD模式

B.使用编程方式定义RDD模式

C.利用投影机制推断RDD模式

D.利用互联机制推断RDD模式

 

7.3多选(3分)‍使用编程方式定义RDD模式时,主要包括哪三个步骤:ABC

A.制作“表头”

B.制作“表中的记录”

C.制作映射表

D.把“表头”和“表中的记录”拼装在一起

posted @ 2022-05-11 17:15  偷猪少年会遇到  阅读(15)  评论(0编辑  收藏  举报