摘要: DataFrame 类似于传统数据库中的二维表格。DataFrame 也是懒执行的,但性能上比 RDD 要高,主要原因:优化的执行计划,即查询计划通过 Spark catalyst optimiser 进行优化。 DataSet DataSet 是分布式数据集合。DataSet 是 DataFram 阅读全文
posted @ 2021-07-09 23:48 冰底熊 阅读(135) 评论(0) 推荐(0)