2015年1月18日

Spark技术内幕:Storage 模块整体架构

摘要: Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中... 阅读全文

posted @ 2015-01-18 19:13 wu2198 阅读(201) 评论(0) 推荐(0)

Spark技术内幕:Shuffle的性能调优

摘要: 通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1 sp... 阅读全文

posted @ 2015-01-18 19:09 wu2198 阅读(245) 评论(0) 推荐(0)

导航