摘要: 持久化: 在Spark中,RDD采用惰性求值的机制,每次遇到行动操作,都会从头开始执行计算。每次调用行动操作,都会触发一次从头开始的计算。这对于迭代计算而言,代价是很大的,迭代计算经常需要多次重复使用同一组数据。例如: 可以通过持久化(缓存)机制避免这种重复计算的开销,可以使用persist()方法 阅读全文
posted @ 2022-02-28 22:05 风吹过半夏 阅读(141) 评论(0) 推荐(0)