摘要: Spark内存模型Spark在一个Executor中的内存分为三块,一块是execution内存,一块是storage内存,一块是other内存。Execution内存是执行内存,文档中说join,aggregate都在这部分内存中执行,shuffle的数据也会先缓存在这个内存中,满了再写入磁盘,能 阅读全文
posted @ 2020-04-02 22:35 嘿呦 阅读(578) 评论(0) 推荐(0)
摘要: Spark快于mapreduce Spark基于内存,Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘 传统的mapreduce虽然具有自动容错、平衡负载的功能,但是他采用的是非循环式的数据流模型(每次流程都需要读取数据),这使得迭代计算需要大量的磁盘IO,RDD的一个重要特征是, 阅读全文
posted @ 2020-04-02 16:12 嘿呦 阅读(973) 评论(0) 推荐(0)