摘要:
摘抄自:https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html 一、概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮 阅读全文
posted @ 2018-04-26 21:33
扎心了,老铁
阅读(17572)
评论(1)
推荐(10)
摘要:
摘抄自https://tech.meituan.com/spark-tuning-pro.html 一、概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行 阅读全文
posted @ 2018-04-26 19:23
扎心了,老铁
阅读(9871)
评论(0)
推荐(4)

浙公网安备 33010602011771号