02 2017 档案
spark性能调优05-troubleshooting处理
摘要:1、调节reduce端缓冲区大小避免OOM异常 1.1 为什么要调节reduce端缓冲区大小 对于map端不断产生的数据,reduce端会不断拉取一部分数据放入到缓冲区,进行聚合处理; 当map端数据特别大时,reduce端的task拉取数据是可能全部的缓冲区都满了,此时进行reduce聚合处理时创 阅读全文
posted @ 2017-02-28 17:52 YL10000 阅读(652) 评论(0) 推荐(0)
spark性能调优04-算子调优
摘要:1、使用MapPartitions代替map 1.1 为什么要死使用MapPartitions代替map 普通的map,每条数据都会传入function中进行计算一次;而是用MapPartitions时,function会一次接受所有partition的数据出入到function中计算一次,性能较高 阅读全文
posted @ 2017-02-27 10:31 YL10000 阅读(3225) 评论(0) 推荐(0)
spark性能调优03-shuffle调优
摘要:1、开启map端输出文件的合并机制 1.1 为什么要开启map端输出文件的合并机制 默认情况下,map端的每个task会为reduce端的每个task生成一个输出文件,reduce段的每个task拉取map端每个task生成的相应文件 开启后,map端只会在并行执行的task生成reduce端tas 阅读全文
posted @ 2017-02-24 14:56 YL10000 阅读(802) 评论(0) 推荐(1)
spark性能调优02-JVM调优
摘要:1、降低cache操作的内存占比 1.1 为什么要降低cache操作的内存占比 spark的堆内存分别两部分,一部分用来给Rdd的缓存进行使用,另一部分供spark算子函数运行使用,存放函数中的对象 默认情况下,供Rdd缓存使用的占0.6,但是,有些时候,不需要那么多的缓存,反而函数计算需要更多的内 阅读全文
posted @ 2017-02-23 17:02 YL10000 阅读(1931) 评论(0) 推荐(0)
spark性能调优01-常规调优
摘要:1、分配更多的资源 1.1 分配的资源有:executor、cup per executor、memory per executor、driver memory 1.2 如何分配:在spark-submit提交时设置相应的参数 1.3 调节到多大(原则:能使用的资源有多大,就尽量调节到最大的大小) 阅读全文
posted @ 2017-02-23 14:33 YL10000 阅读(509) 评论(0) 推荐(0)