摘要:
Spark中对于数据的保存除了持久化操作之外,还提供了一种检查点的机制,检查点(本质是通过将RDD写入Disk做检查点)是为了通过lineage(血统)做容错的辅助,lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做L 阅读全文
posted @ 2019-02-26 20:25
流氓小伙子
阅读(3316)
评论(0)
推荐(1)
摘要:
转自:https://blog.csdn.net/dmy1115143060/article/details/82620715 一、Spark数据分区方式简要 在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每个RDD是由若干个Part 阅读全文
posted @ 2019-02-26 11:00
流氓小伙子
阅读(14338)
评论(0)
推荐(0)
摘要:
Spark作业调度 对RDD的操作分为transformation和action两类,真正的作业提交运行发生在action之后,调用action之后会将对原始输入数据的所有transformation操作封装成作业并向集群提交运行。这个过程大致可以如下描述: 由DAGScheduler对RDD之间的 阅读全文
posted @ 2019-02-26 10:09
流氓小伙子
阅读(6041)
评论(0)
推荐(1)

浙公网安备 33010602011771号