1月11日

今天继续深入学习 Spark 的 RDD 操作。早上学习了 RDD 的持久化(persist)和缓存(cache)方法,通过实验对比了不同存储级别的性能差异,发现合理使用持久化可以大大提高后续操作的效率。下午尝试了 RDD 的键值对操作,如 groupByKey、reduceByKey 等,通过编写代码对一组数据进行聚合计算,加深了对这些操作的理解。同时,还学习了如何使用 Spark 的广播变量(broadcast)来优化数据传输,提高了程序的运行效率。
posted @ 2025-01-11 21:08  序章0  阅读(6)  评论(0)    收藏  举报