Spark 2.x管理与开发-Spark SQL-使用数据源(三)JSON Datasets

Posted on 2020-07-26 09:40  MissRong  阅读(120)  评论(0)    收藏  举报

 

Spark 2.x管理与开发-Spark SQL-使用数据源(三)JSON Datasets

Spark SQL能自动解析JSON数据集的Schema,读取JSON数据集为DataFrame格式。

读取JSON数据集方法为SQLContext.read().json()该方法将String格式的RDD或JSON文件转换为DataFrame。

需要注意的是,这里的JSON文件不是常规的JSON格式。

JSON文件每一行必须包含一个独立的、自满足有效的JSON对象。

如果用多行描述一个JSON对象,会导致读取出错。

读取JSON数据集示例如下:

Demo1:使用Spark自带的示例文件 --> people.json 文件

定义路径:

val path ="/root/resources/people.json"

读取Json文件,生成DataFrame:

val peopleDF = spark.read.json(path)

打印Schema结构信息:

peopleDF.printSchema()

创建临时视图:

peopleDF.createOrReplaceTempView("people")

执行查询

spark.sql("SELECT name FROM people WHERE age=19").show

**********自己定义*********

 

Spark SQL支持统一的访问接口:对于不同的数据源,进入到Spark使其转换成DataFrame类型的数据进行操作即可。

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3