2019 年 2月 26 日随笔档案 - 流氓小伙子

2019年2月26日

摘要： Spark中对于数据的保存除了持久化操作之外，还提供了一种检查点的机制，检查点（本质是通过将RDD写入Disk做检查点）是为了通过lineage（血统）做容错的辅助，lineage过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做L 阅读全文

posted @ 2019-02-26 20:25 流氓小伙子阅读(3167) 评论(0) 推荐(1) 编辑

Spark中的分区方法详解

摘要：转自：https://blog.csdn.net/dmy1115143060/article/details/82620715 一、Spark数据分区方式简要在Spark中，RDD（Resilient Distributed Dataset）是其最基本的抽象数据集，其中每个RDD是由若干个Part 阅读全文

posted @ 2019-02-26 11:00 流氓小伙子阅读(14034) 评论(0) 推荐(0) 编辑

Spark Stage 的划分

摘要： Spark作业调度对RDD的操作分为transformation和action两类，真正的作业提交运行发生在action之后，调用action之后会将对原始输入数据的所有transformation操作封装成作业并向集群提交运行。这个过程大致可以如下描述：由DAGScheduler对RDD之间的阅读全文

posted @ 2019-02-26 10:09 流氓小伙子阅读(5830) 评论(0) 推荐(1) 编辑

流氓小伙子

公告