补交作业6作业7

作业7补交

1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。

答:hive是shark的前身,shark是sparkSQL的前身,sparkSQL产生的根本原因是其完全脱离了hive的限制,hive是hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序复杂性。同时也由于MapReduce的计算执行效率很慢,因此spark SQL就这样出来,就是将spark SQL转换成RDD,然后提交到集群上执行,这样效率就非常快。

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrame API和Dataset API三种方式实现对结构化数据的处理。但无论是哪种API或者是编程语言,都是基于同样的执行引擎,因此可以在不同的API之间随意切换。

2. 简述RDD 和DataFrame的联系与区别。

 答:

区别:
  RDD是分布式的java对象的集合,但是对象内部结构对于RDD而言却是不可知的。
  DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息,相当于关系数据库中的一张表。

联系:
  1.都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利。
  2、都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action才会运算。
  3.都会根据spark的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存溢出
  4、三者都有partition的概念。
  5.三者有许多共同的函数,如filter,排序等。

3.DataFrame的创建与保存

3.1 PySpark-DataFrame创建:

spark.read.text(url)

spark.read.json(url) 

spark.read.format("text").load("people.txt")

spark.read.format("json").load("people.json")

描述从不同文件类型生成DataFrame的区别。

用相同的txt或json文件,同时创建RDD,比较RDD与DataFrame的区别。

 

3.2 DataFrame的保存

df.write.text(dir)

df.write.json(dri)

df.write.format("text").save(dir)

df.write.format("json").save(dir)

df.write.format("json").save(dir)

 

4.选择题

1单选(2分)‍关于Shark,下面描述正确的是:C

A.Shark提供了类似Pig的功能

B.Shark把SQL语句转换成MapReduce作业

C.Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑

D.Shark的性能比Hive差很多

 

2单选(2分)‏下面关于Spark SQL架构的描述错误的是:D

A.在Shark原有的架构上重写了逻辑执行计划的优化部分,解决了Shark存在的问题

B.Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据

C.Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责

D.Spark SQL执行计划生成和优化需要依赖Hive来完成

 

3单选(2分)‌要把一个DataFrame保存到people.json文件中,下面语句哪个是正确的:A

A.df.write.json("people.json")

B.df.json("people.json")

C.df.write.format("csv").save("people.json")

D.df.write.csv("people.json")

 

4多选(3分)‎Shark的设计导致了两个问题:AC

A.执行计划优化完全依赖于Hive,不方便添加新的优化策略

B.执行计划优化不依赖于Hive,方便添加新的优化策略

C.Spark是线程级并行,而MapReduce是进程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

D.Spark是进程级并行,而MapReduce是线程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

 

5 多选(3分)‌下面关于为什么推出Spark SQL的原因的描述正确的是:AB

A.Spark SQL可以提供DataFrame API,可以对内部和外部各种数据源执行各种关系操作

B.可以支持大量的数据源和数据分析算法,组合使用Spark SQL和Spark MLlib,可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力

C.Spark SQL无法对各种不同的数据源进行整合

D.Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力

 

6多选(3分)‌下面关于DataFrame的描述正确的是:ABCD

A.DataFrame的推出,让Spark具备了处理大规模结构化数据的能力

B.DataFrame比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能

C.Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询

D.DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息

 

7多选(3分)‏要读取people.json文件生成DataFrame,可以使用下面哪些命令:AC

A.spark.read.json("people.json")

B.spark.read.parquet("people.json")

C.spark.read.format("json").load("people.json")

D.spark.read.format("csv").load("people.json")

 

8单选(2分)以下操作中,哪个不是DataFrame的常用操作:D

A.printSchema()

B.select()

C.filter()

D.sendto()

 

9多选(3分)‏从RDD转换得到DataFrame包含两种典型方法,分别是:AB

A.利用反射机制推断RDD模式

B.使用编程方式定义RDD模式

C.利用投影机制推断RDD模式

D.利用互联机制推断RDD模式

 

10多选(3分)‍使用编程方式定义RDD模式时,主要包括哪三个步骤:ABD

A.制作“表头”

B.制作“表中的记录”

C.制作映射表

D.把“表头”和“表中的记录”拼装在一起

 

作业6补交

集合运算练习

union(), intersection(),subtract(), cartesian()

三、学生课程分数

网盘下载sc.txt文件,通过RDD操作实现以下数据分析:

持久化 scm.cache()

lines=sc.textFile("hdfs://localhost:9000/user/czb/sc.txt")
scm=lines.map(lambda line:line.split(',')).map(lambda line:[line[0],line[1],int(line[2])])

scm.cache()

 

 总共有多少学生?map(), distinct(), count()

scm.take(4)
scm.count()
scm.map(lambda line:line[0]).distinct().count()
scm.map(lambda line:line[0]).distinct().take(4)

 

 开设了多少门课程?

scm.map(lambda line:line[1]).take(10)
scm.map(lambda line:line[1]).distinct().take(10)
scm.map(lambda line:line[1]).distinct().count()

 

 每个学生选修了多少门课?map(), countByKey()

name=scm.map(lambda line:(line[0],(line[1],line[2])))
name.take(4)
name.keys().take(6)
name.values().take(6)
name.countByKey()

 

 

 

 每门课程有多少个学生选?map(), countByValue() 

name.values().countByKey()

 

 多少个100分?

name.values().values().countByValue()[100]

 

 Tom选修了几门课?每门课多少分?filter(), map() RDD

scm.filter(lambda line:line[0]=='Tom').map(lambda line:line[1]).collect()
scm.filter(lambda line:line[0]=='Tom').map(lambda line:line[2]).collect()

 

 Tom选修了几门课?每门课多少分?map(),lookup()  list

name.lookup('Tom')
scm.filter(lambda line:line[0]=='Tom')

scm.filter(lambda line:line[0]=='Tom').map(lambda line:line[1]).collect()
scm.filter(lambda line:line[0]=='Tom').map(lambda line:line[2]).collect()

 

 Tom的成绩按分数大小排序。filter(), map(), sortBy()

name.filter(lambda line:line[0]=='Tom').values().collect()

name.filter(lambda line:line[0]=='Tom').values().sortBy(lambda a:a[1],False).collect()

 

 Tom的平均分。map(),lookup(),mean()

np.mean(scm.filter(lambda line:line[0]=='Tom').map(lambda line:line[2]).collect())

 

 生成(姓名课程,分数)RDD,观察keys(),values()

cr=lines.map(lambda line:line.split(',')).map(lambda line:(line[1],line[2]))
cr.take(3)

 

 

老师好,这两次作业因为有点事情而导致忘记提交,现补交作业,谢谢老师!辛苦了!

posted @ 2022-06-01 10:17  谢林展  阅读(46)  评论(0编辑  收藏  举报