摘要: 摘抄自:https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html 一、概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮 阅读全文
posted @ 2018-04-26 21:33 扎心了,老铁 阅读(17168) 评论(1) 推荐(10) 编辑
摘要: 摘抄自https://tech.meituan.com/spark-tuning-pro.html 一、概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行 阅读全文
posted @ 2018-04-26 19:23 扎心了,老铁 阅读(9273) 评论(0) 推荐(4) 编辑