摘要: Spark中对于数据的保存除了持久化操作之外,还提供了一种检查点的机制,检查点(本质是通过将RDD写入Disk做检查点)是为了通过lineage(血统)做容错的辅助,lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做L 阅读全文
posted @ 2019-02-26 20:25 流氓小伙子 阅读(3167) 评论(0) 推荐(1) 编辑
摘要: 转自:https://blog.csdn.net/dmy1115143060/article/details/82620715 一、Spark数据分区方式简要 在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每个RDD是由若干个Part 阅读全文
posted @ 2019-02-26 11:00 流氓小伙子 阅读(14034) 评论(0) 推荐(0) 编辑
摘要: Spark作业调度 对RDD的操作分为transformation和action两类,真正的作业提交运行发生在action之后,调用action之后会将对原始输入数据的所有transformation操作封装成作业并向集群提交运行。这个过程大致可以如下描述: 由DAGScheduler对RDD之间的 阅读全文
posted @ 2019-02-26 10:09 流氓小伙子 阅读(5830) 评论(0) 推荐(1) 编辑