缓存 - happygril3 - 博客园

缓存

1.1. RDD的缓存

Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或缓存数据集。

当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。

RDD相关的持久化和缓存，是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。

RDD缓存方式

RDD通过persist方法或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。

posted on 2020-12-28 16:37 happygril3 阅读(104) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告