摘要: DataFrame DataFrame 是一种以 RDD 为基础的分布式数据集,类似于二维表格。与 RDD 的区别在于,前者带有 schema 元信息,即 DataFrame。 DataFrame 也是懒执行的,但性能上比 RDD 要高。因为优化了执行计划,查询计划通过 Spark catalyst 阅读全文
posted @ 2022-10-22 12:48 FireOnFire 阅读(75) 评论(0) 推荐(0)