Fork me on GitHub
摘要: 1 定义 一个数据集是分布式的数据集合。Spark 1.6增加新接口Dataset,提供 RDD的优点:强类型、能够使用强大lambda函数 Spark SQL优化执行引擎的优点 可从JVM对象构造Dataset,然后函数式转换(map、flatMap、filter等)操作。Dataset API在 阅读全文
posted @ 2024-03-24 22:41 公众号-JavaEdge 阅读(90) 评论(0) 推荐(0)