2017 年 2月随笔档案 - YL10000

spark性能调优05-troubleshooting处理

摘要：1、调节reduce端缓冲区大小避免OOM异常 1.1 为什么要调节reduce端缓冲区大小对于map端不断产生的数据，reduce端会不断拉取一部分数据放入到缓冲区，进行聚合处理；当map端数据特别大时，reduce端的task拉取数据是可能全部的缓冲区都满了，此时进行reduce聚合处理时创阅读全文

posted @ 2017-02-28 17:52 YL10000 阅读(652) 评论(0) 推荐(0)

spark性能调优04-算子调优

摘要：1、使用MapPartitions代替map 1.1 为什么要死使用MapPartitions代替map 普通的map,每条数据都会传入function中进行计算一次；而是用MapPartitions时，function会一次接受所有partition的数据出入到function中计算一次，性能较高阅读全文

posted @ 2017-02-27 10:31 YL10000 阅读(3225) 评论(0) 推荐(0)

spark性能调优03-shuffle调优

摘要：1、开启map端输出文件的合并机制 1.1 为什么要开启map端输出文件的合并机制默认情况下，map端的每个task会为reduce端的每个task生成一个输出文件，reduce段的每个task拉取map端每个task生成的相应文件开启后，map端只会在并行执行的task生成reduce端tas 阅读全文

posted @ 2017-02-24 14:56 YL10000 阅读(802) 评论(0) 推荐(1)

spark性能调优02-JVM调优

摘要：1、降低cache操作的内存占比 1.1 为什么要降低cache操作的内存占比 spark的堆内存分别两部分，一部分用来给Rdd的缓存进行使用，另一部分供spark算子函数运行使用，存放函数中的对象默认情况下，供Rdd缓存使用的占0.6，但是，有些时候，不需要那么多的缓存，反而函数计算需要更多的内阅读全文

posted @ 2017-02-23 17:02 YL10000 阅读(1931) 评论(0) 推荐(0)

spark性能调优01-常规调优

摘要：1、分配更多的资源 1.1 分配的资源有：executor、cup per executor、memory per executor、driver memory 1.2 如何分配：在spark-submit提交时设置相应的参数 1.3 调节到多大（原则：能使用的资源有多大，就尽量调节到最大的大小）阅读全文

posted @ 2017-02-23 14:33 YL10000 阅读(509) 评论(0) 推荐(0)