RDD容错处理方式和传统容错处理方式的比较--(视频笔记)

1、HDFS只能读取,或者通过其他途径创建
2、transfrmation是lazy的。
3、传统的容错方式,数据检查点或者记录数据的更新
容错是分布式最困难的部分。
数据检查点:通过数据中心的网络,连接所在的机器之间,复制庞大的数据集。消耗网络和磁盘。
记录数据的更新:更新的很多,则记录成本很高。
4、RDD容错方式
所有的RDD知道自己的是从哪来的,并记录自己的数据是如何生成的,通过重新计算来生成原来丢失的数据。

posted @ 2015-12-28 19:23  逸新  阅读(522)  评论(0编辑  收藏  举报