Spark 2.x管理与开发-Spark SQL-Spark SQL基础 (三)创建DataFrame(1)通过Case Class创建DataFrame

 

1.定义case class(相当于表的结构:Schema)

 

注意:由于mgr和comm列中包含null值,简单起见,将对应的case class类型定义为String

 

 

2.将HDFS上的数据读入RDD,并将RDD与case Class关联

 

 

 

 

3.将RDD转换成DataFrames

 

 

4.通过DataFrames查询数据 

 

********************自己操练****************

 

原数据:

 

 

 

 

 

1.定义case class(相当于表的结构:Schema)

 

 

 

2.将本地上的数据读入RDD,并将RDD与case Class关联

 

 

 

 

 

 

3.将RDD转换成DataFrames-toDF

 

 

 

4.通过DataFrames查询数据-df1.show

 

发现报错:

 

 

 

 

 

这是因为倒数第二列的和第四列数据有空值,在toInt()的时候有误

 

现在将值为空的都变成0

 

再重复之前的操作命令,结果如下:

 

 

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3