摘要:
Hadoop使用数据复制来实现容错性(I/O高) Spark使用RDD数据存储模型来实现容错性。 RDD是只读的、分区记录的集合。如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求,从而减少了对磁盘的访问。通过RDD,后续步骤如果需要相同数据 阅读全文
posted @ 2016-12-02 18:09
大数据和AI躺过的坑
阅读(428)
评论(0)
推荐(0)
摘要:
打好基础,别小瞧它! spark的运行模式多种多样,在单机上既可以本地模式运行,也可以伪分布模式运行。而当以分布式的方式在集群中运行时。底层的资源调度可以使用Mesos或者Yarn,也可使用spark自带的Standalone模式。 1、Application : Application的概念和Ha 阅读全文
posted @ 2016-12-02 14:05
大数据和AI躺过的坑
阅读(1037)
评论(0)
推荐(0)

浙公网安备 33010602011771号