1月11日

今天继续深入学习 Spark 的 RDD 操作。早上学习了 RDD 的持久化（persist）和缓存（cache）方法，通过实验对比了不同存储级别的性能差异，发现合理使用持久化可以大大提高后续操作的效率。下午尝试了 RDD 的键值对操作，如 groupByKey、reduceByKey 等，通过编写代码对一组数据进行聚合计算，加深了对这些操作的理解。同时，还学习了如何使用 Spark 的广播变量（broadcast）来优化数据传输，提高了程序的运行效率。

posted @ 2025-01-11 21:08 序章0 阅读(10) 评论(0) 收藏举报