Spark RDD弹性7点

1、自动的进行磁盘数据和内存之间的无缝切换

2、基于lineage的高效容错,第n个出错,会从第n-1个开始执行

3、task失败会进行特定次数的重试

4、stage失败会自动进行特定次数的重试,并且只运行计算失败的数据分片

5、checkpoint(类似单机游戏里的存档)和presist,持久化cache

6、数据调度弹性,DAG TASK与资源管理无关

7、数据分片的高度弹性,repartition,1W个大的,变成10W个小的, 10W个小的变成1W个大的。

posted @ 2016-04-21 22:48  至燃烧殆尽的青春  阅读(235)  评论(0)    收藏  举报