SparkSQL总结

RDD、DataFrame、Dataset的区别

  • 在RDD中,可以知道每个元素的具体类型,可以说将每一个用户数据封装为Person类型,RDD每个元素都是Person类型
  • DataFrame spark2.0已弃用,DF中每一行数据的包装类型是不允许被自定义的,统一为ROW类型
  • Dataset是强类型数据,在数据插入之前就可以越低存入的对象,既可以明确的知道每行数据的具体类型,并且每列有字段名也有字段类型;更符合面向对象编程,便于使用lambda函数

 

posted on 2020-05-05 19:56  床上小老虎  阅读(284)  评论(0)    收藏  举报

导航