yetang307

:: :: :: ::

::

公告

寒假学习

1. SparkSQL 和 Hive同样，都是用于大规模SQL分布式计算的计算框

架，均可以运行在YARN之上，在企业中广泛被应用

2. SparkSQL的数据抽象为：SchemaRDD（废弃）、DataFrame（

Python、R、Java、Scala）、DataSet（Java、Scala）。

3. DataFrame同样是分布式数据集，有分区可以并行计算，和RDD不

同的是，DataFrame中存储的数据结构是以表格形式组织的，方便

进行SQL计算

4. DataFrame对比DataSet基本相同，不同的是DataSet支持泛型特

性，可以让Java、Scala语言更好的利用到。

5. SparkSession是2.0后退出的新执行环境入口对象，可以用于RDD

、SQL等编程

posted on 2024-01-26 22:13 椰糖阅读(37) 评论(0) 收藏举报

刷新页面返回顶部