缓存
1.1. RDD的缓存
Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存数据集。
当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。
RDD相关的持久化和缓存,是Spark最重要的特征之一。可以说,缓存是Spark构建迭代式算法和快速交互式查询的关键。
RDD缓存方式
RDD通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。

posted on 2020-12-28 16:37 happygril3 阅读(89) 评论(0) 收藏 举报
浙公网安备 33010602011771号