2020 年 4月 2 日随笔档案 - 嘿呦

2020年4月2日

摘要： Spark内存模型Spark在一个Executor中的内存分为三块，一块是execution内存，一块是storage内存，一块是other内存。Execution内存是执行内存，文档中说join，aggregate都在这部分内存中执行，shuffle的数据也会先缓存在这个内存中，满了再写入磁盘，能阅读全文

posted @ 2020-04-02 22:35 嘿呦阅读(578) 评论(0) 推荐(0)

Spark知识点总结

摘要： Spark快于mapreduce Spark基于内存，Spark多个任务之间数据通信是基于内存，而Hadoop是基于磁盘传统的mapreduce虽然具有自动容错、平衡负载的功能，但是他采用的是非循环式的数据流模型（每次流程都需要读取数据），这使得迭代计算需要大量的磁盘IO，RDD的一个重要特征是，阅读全文

posted @ 2020-04-02 16:12 嘿呦阅读(973) 评论(0) 推荐(0)

公告