Spark RDD概念学习系列之细谈RDD的弹性（十六）

　　细谈RDD的弹性

　　所谓，弹性，是指在内存不够时可以与磁盘进行交换。

　　　弹性之一：自动的进行内存和磁盘数据存储的切换

　　弹性之二：基于Lineage（血缘）的高效容错

　　弹性之三：Task如果失败会自动进行特定次数的重试

　　　弹性之四：Stage如果失败会自动进行特定次数的重试，而且只会计算失败的分片

　　　弹性之五：checkpoint和persist

　　　　　　Checkpoint是比较重量级的操作，RDD操作，一般每次都会产生新的RDD，除了最后一个action操作触发作业以外。但是有时候，链条比较长或者计算比较笨重，考虑把数据放到磁盘上，这就是Checkpoint。

　　　　 Persist是在内存或磁盘里复用。

　　弹性之六：数据调度弹性:DAG、Task和资源管理无关

　　弹性之七：数据分片的高度弹性

欢迎大家，加入我的微信公众号：大数据躺过的坑免费给分享

同时，大家可以关注我的个人博客：

http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/

　　人生苦短，我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神，汇聚于互联网和个人学习工作的精华干货知识，一切来于互联网，反馈回互联网。
　　目前研究领域：大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。语言涉及：Java、Scala、Python、Shell、Linux等。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。只要你一直关注和呆在群里，每天必须有收获

以及对应本平台的QQ群：161156071（大数据躺过的坑）

posted @ 2016-09-20 09:10 大数据和AI躺过的坑阅读(1227) 评论(0) 收藏举报

刷新页面返回顶部

大数据和人工智能躺过的坑

Spark RDD概念学习系列之细谈RDD的弹性（十六）

公告