Spark 2.x管理与开发-Spark SQL-使用数据源（三）JSON Datasets

Posted on 2020-07-26 09:40 MissRong 阅读(120) 评论(0) 收藏举报

Spark SQL能自动解析JSON数据集的Schema，读取JSON数据集为DataFrame格式。

读取JSON数据集方法为SQLContext.read().json()。该方法将String格式的RDD或JSON文件转换为DataFrame。

需要注意的是，这里的JSON文件不是常规的JSON格式。

JSON文件每一行必须包含一个独立的、自满足有效的JSON对象。

如果用多行描述一个JSON对象，会导致读取出错。

读取JSON数据集示例如下：

定义路径：

val path ="/root/resources/people.json"

读取Json文件，生成DataFrame：

val peopleDF = spark.read.json(path)

打印Schema结构信息：

peopleDF.printSchema()

创建临时视图：

peopleDF.createOrReplaceTempView("people")

执行查询

spark.sql("SELECT name FROM people WHERE age=19").show

**自己定义*

Spark SQL支持统一的访问接口：对于不同的数据源，进入到Spark使其转换成DataFrame类型的数据进行操作即可。

刷新页面返回顶部