2020年12月28日

摘要: checkpoint 检查点是很多分布式系统的常用容错容灾机制,其本质就是将系统运行时的内存数据结构和状态持久化到磁盘上,在需要的时候对这些数据进行读取,然后重新构造出运行时的状态。 在Spark中使用检查点就是为了将RDD的状态保存下来,在重新执行时就不需要计算,直接从检查点读取即可 1.什么时候 阅读全文
posted @ 2020-12-28 16:48 happygril3 阅读(569) 评论(0) 推荐(0)
摘要: 1.1. RDD的缓存 Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存数据集。 当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。 RDD相关的持久化和缓存,是Spark最重要 阅读全文
posted @ 2020-12-28 16:37 happygril3 阅读(98) 评论(0) 推荐(0)
摘要: 1.RDD 1.1定义 1.1.1 数据集 存储数据的计算逻辑 1.1.2 分布式 数据得来源,数据得存储 1.1.3 弹性 (1)血缘(依赖关系):spark可以通过特殊的处理方案简化依赖关系(2)计算:Spark是基于内存的,性能特别高,可以和键盘灵活切换(3)分区:Spark在创建默认分区后, 阅读全文
posted @ 2020-12-28 10:22 happygril3 阅读(70) 评论(0) 推荐(0)

导航