Spark SQL 及其DataFrame的基本操作

1.Spark SQL出现的 原因是什么?

Spark SQL是用于结构化数据处理的Spark模块。它提供了一种称为DataFrames的编程抽象,还可以充当分布式SQL查询引擎。它使未修改的Hadoop Hive查询在现有部署和数据上的运行速度提高了100倍。

2.用spark.read 创建DataFrame

 

 

 运行结果:

 

3.观察从不同类型文件创建DataFrame有什么异同?

txt文件:创建的DataFrame数据没有结构

json文件:创建的DataFrame数据有结构

text

 

 

 

 

 

json

 

 

 

 

打印概要

df.printSchema()

 

 

 

查询总行数

df.count()

 

 

 

df.head(3) #list类型,list中每个元素是Row

输出全部行

 

 

 

 

df.collect() #list类型,list中每个元素是Row

查询概况

 

 

 

 

df.describe().show()

取列

 

 

 

 

df.select()

 

 

df.filter()

 

 

df.groupBy()

 

 

df.sort()

posted @ 2021-05-10 17:31  八号疯球  阅读(40)  评论(0编辑  收藏  举报