Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame(1)通过Case Class创建DataFrame
Posted on 2020-07-18 18:19 MissRong 阅读(494) 评论(0) 收藏 举报Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame(1)通过Case Class创建DataFrame
1.定义case class(相当于表的结构:Schema)
注意:由于mgr和comm列中包含null值,简单起见,将对应的case class类型定义为String
![]()
2.将HDFS上的数据读入RDD,并将RDD与case Class关联
![]()

3.将RDD转换成DataFrames
![]()
4.通过DataFrames查询数据

********************自己操练****************
原数据:


1.定义case class(相当于表的结构:Schema)

2.将本地上的数据读入RDD,并将RDD与case Class关联


3.将RDD转换成DataFrames-toDF

4.通过DataFrames查询数据-df1.show
发现报错:


这是因为倒数第二列的和第四列数据有空值,在toInt()的时候有误
现在将值为空的都变成0

再重复之前的操作命令,结果如下:

浙公网安备 33010602011771号