yetang307

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
1. SparkSQL 和 Hive同样,都是用于大规模SQL分布式计算的计算框
架,均可以运行在YARN之上,在企业中广泛被应用
2. SparkSQL的数据抽象为:SchemaRDD(废弃)、DataFrame(
Python、R、Java、Scala)、DataSet(Java、Scala)。
3. DataFrame同样是分布式数据集,有分区可以并行计算,和RDD不
同的是,DataFrame中存储的数据结构是以表格形式组织的,方便
进行SQL计算
4. DataFrame对比DataSet基本相同,不同的是DataSet支持泛型特
性,可以让Java、Scala语言更好的利用到。
5. SparkSession是2.0后退出的新执行环境入口对象,可以用于RDD
、SQL等编程
posted on 2024-01-26 22:13  椰糖  阅读(2)  评论(0编辑  收藏  举报