Spark实践 -- 性能优化基础

性能调优相关的原理讲解、经验总结；
掌握一整套Spark企业级性能调优解决方案；而不只是简单的一些性能调优技巧。
针对写好的spark作业，实施一整套数据倾斜解决方案：实际经验中积累的数据倾斜现象的表现，以及处理后的效果总结。

调优前首先要对spark的作业流程清楚：

Driver到Executor的结构；

Master: Driver
    |-- Worker: Executor
            |-- job
                 |-- stage
                       |-- Task Task

一个Stage内，最终的RDD有多少个partition，就会产生多少个task，一个task处理一个partition的数据；
作业划分为task分到Executor上，然后一个cpu core执行一个task；
BlockManager负责Executor，task的数据管理，task来它这里拿数据；

1.1 资源分配

性能调优的王道：分配更多资源。

分配哪些资源？ executor、cpu per executor、memory per executor、driver memory
在哪里分配这些资源？
在我们在生产环境中，提交spark作业时，用的spark-submit shell脚本，里面调整对应的参数

/usr/local/spark/bin/spark-submit \
--class cn.spark.sparktest.core.WordCountCluster \
--driver-memory 1000m \     #driver的内存，影响不大，只要不出driver oom
--num-executors 3 \         #executor的数量
--executor-memory 100m \    #每个executor的内存大小
--executor-cores 3 \        #每个executor的cpu core数量
/usr/local/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar \

如何调节资源分配

第一种，Spark Standalone 模式下资源分配。

假如说一共20台机器，每台机器能使用4G内存，2个cpu core。

executor = 20，对应worker节点数量；
executor-memory = 4G内存，对应每个worker能用的最大内存；
executor-cores = 2，对应每个worker给每个executor能用的最多个cpu core。

第二种，Yarn模式资源队列下资源调度。

应该去查看spark作业，要提交到的资源队列，大概有多少资源？
一个原则，你能使用的资源有多大，就尽量去调节到最大的大小（executor的数量，几十个到上百个不等；

为什么调节资源以后，性能可以提升？

num-executors：增加executor个数

如果executor数量比较少，能够并行执行的task就少，Application的并行执行的能力就很弱。
executor-cores：增加每个executor的cpu core，增加了执行的并行能力

原本20个executor，各有2个cpu core。能够并行40个task。
现在每个executor的cpu core，增加到了5个。就能够并行执行100个task。
执行的速度，提升了2.5倍。
但不超过服务器的cpu core数，不然会waiting。
executor-memory：增加每个executor的内存量

增加了内存量以后，对性能的提升有以下几点，但是不超过分配各每个worker的内存：
1. 如果需要对RDD进行cache，可以缓存更多的数据，将更少的数据写入磁盘。
2. 对于shuffle操作减少了磁盘IO，reduce端需要内存来存放拉取的数据并进行聚合。如果内存不够，会写入磁盘。
3. 对于task的执行，会创建很多对象。如果内存比较小，可能会频繁导致JVM堆内存满了，然后频繁GC，垃圾回收，minor GC和full GC。速度变慢。

1.2 调节并行度

并行度：Spark作业中根据宽窄依赖拆成多个stage，各个stage的task数量，也就代表了job在各个阶段（stage）的并行度。

SparkConf conf = new SparkConf()
  .set("spark.default.parallelism", "500")

spark自己的算法给task选择Executor，Execuotr进程里面包含着task线程。
举例（wordCount）：
map阶段：每个task根据去找到自己需要的数据写到文件去处理。生成的文件一定是存放相同的key对应的values，相同key的values一定是进入同一个文件。
reduce阶段：每个stage1的task，会去上面生成的文件拉取数据；拉取到的数据，一定是相同key对应的数据。对相同的key，对应的values，才能去执行我们自定义的function操作（_ + _）

假设资源调到上限了，如果不调节并行度，导致并行度过低，会怎么样？

假设task设置了100个task。有50个executor，每个executor有3个cpu core。
则Application任何一个stage运行的时候，都有总数在150个cpu core，可以并行运行。
同时在运行的task只有100个。每个executor剩下的一个cpu core，并行度没有与资源相匹配，就浪费掉了。

合理的并行度的设置，应该要设置到可以完全合理的利用你的集群资源；
比如上面的例子，总共集群有150个cpu core，可以并行运行150个task。
即可以同时并行运行，还可以让每个task要处理的数据量变少。
最终，就是提升你的整个Spark作业的性能和运行速度。

官方是推荐，task数量，设置成spark application总cpu core数量的2~3倍，比如150个cpu core，基本要设置task数量为300~500；

因为有些task会运行的快一点，比如50s就完了，有些task，可能会慢一点，要1分半才运行完，如果task数量设置成cpu core总数的2~3倍，那么一个task运行完了以后，另一个task马上可以补上来，就尽量不让cpu core空闲，尽量提升spark作业运行的效率和速度，提升性能。

1.3 重构RDD架构以及RDD持久化

RDD架构重构与优化：尽量复用RDD，差不多的RDD抽取为一个共同的RDD，供后面的RDD计算时，反复使用。
公共RDD一定要实现持久化，将RDD的数据缓存到内存中/磁盘中，（BlockManager），以后无论对这个RDD做多少次计算，那么都是直接取这个RDD的同一份数据。
持久化是可以进行序列化的，如果正常将数据持久化在内存中，可能会导致内存的占用过大，导致OOM。
为了数据的高可靠性，而且内存充足，可以使用双副本机制，进行持久化。

1.4 大变量进行广播，使用Kryo序列化，本地化等待时间

广播变量
session分析模块中随机抽取部分，time2sessionsRDD.flatMapToPair()，取session2extractlistMap中对应时间的list。
task执行的算子flatMapToPair算子，使用了外部的变量session2extractlistMap，每个task都要通过网络的传输获取一份变量的副本占网络资源占内存。

在driver上会有一份初始的副本。
task在运行的时候，想要使用广播变量中的数据，此时首先会在自己本地的Executor对应的BlockManager中（负责管理某个Executor对应的内存和磁盘上的数据），尝试获取变量副本；
如果本地没有，那么就从Driver远程拉取变量副本，并保存在本地的BlockManager中；
此后这个executor上的task，都会直接使用本地的BlockManager中的副本。
BlockManager除了从driver上拉取，也可能从其他节点的BlockManager上拉取变量副本，距离越近越好。

==============

优化序列化格式
默认情况下，Spark内部是使用Java的对象输入输出流序列化机制，ObjectOutputStream / ObjectInputStream
这种默认序列化机制的好处在于，处理起来比较方便；也不需要我们手动去做什么事情，只是，你在算子里面使用的变量，必须是实现Serializable接口的，可序列化即可。
但是默认的序列化机制的效率不高速度慢；序列化数据占用的内存空间大。

Spark支持使用Kryo序列化机制。
Kryo序列化机制，比默认的Java序列化机制，速度要快，序列化后的数据要更小，大概是Java序列化机制的1/10。让网络传输的数据变少；耗费的内存资源大大减少。

Kryo序列化机制，一旦启用以后，会生效的几个地方：
1、算子函数中使用到的外部变量
2、持久化RDD时进行序列化，StorageLevel.MEMORY_ONLY_SER
3、shuffle

第一步：

SparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

第二步，注册你使用到的，需要通过Kryo序列化的自定义类。

SparkConf.registerKryoClasses(new Class[]{CategorySortKey.class});

Kryo要求，如果要达到它的最佳性能的话，那么就一定要注册你自定义的类（比如，你的算子函数中使用到了外部自定义类型的对象变量，就要求必须注册你的类，否则Kryo达不到最佳性能）。

============

fastutil优化
由于java的集合类型在每个数据中除了数据，还有元素的位置长度等都要占用了空间，所以一般不推荐使用集合，而是使用java数组。

fastutil是扩展了Java标准集合框架（Map、List、Set；HashMap、ArrayList、HashSet）的类库，提供了特殊类型的map、set、list和queue；能够提供更小的内存占用，更快的存取速度。

Spark中应用fastutil的场景：
1、如果算子函数使用了外部变量是某种比较大的集合，那么可以考虑使用fastutil改写外部变量，首先从源头上就减少内存的占用，通过广播变量进一步减少内存占用，再通过Kryo序列化类库进一步减少内存占用。
2、在你的算子函数里，也就是task要执行的计算逻辑里面，要创建比较大的Map、List等集合，可以考虑将这些集合类型使用fastutil类库重写，减少task创建出来的集合类型的内存占用。

fastutil的使用，在pom.xml中引用fastutil的包

基本都是类似于IntList的格式，前缀就是集合的元素类型；特殊的就是Map，Int2IntMap，代表了key-value映射的元素类型。

==============

调节数据本地化等待时长

背景：所谓任务跟着数据跑，Driver对Application的每一个stage的task进行分配之前，都会计算出每个task要计算的是哪个分片数据。
分配算法会希望每个task正好分配到它要计算的数据所在的节点。
但是可能某task要分配过去的那个节点的计算资源和计算能力都满了，Spark会等待一段时间，默认情况下是3s。
超过时间了会选择一个比较差的本地化级别，将task分配到离要计算的数据所在节点比较近的一个节点，然后进行计算。

task会通过其所在节点的BlockManager来获取数据，BlockManager发现自己本地没有数据，
会通过一个getRemote()方法，通过TransferService（网络数据传输组件）从数据所在节点的BlockManager中，获取数据，通过网络传输回task所在节点。

所以我们可以调节等待时长就是让spark再等待多一下，不要到低一级的本地化级别。

spark.locality.wait.process
spark.locality.wait.node
spark.locality.wait.rack

new SparkConf()
  .set("spark.locality.wait", "10")

先用client模式，在本地就直接可以看到比较全的日志。
观察日志，spark作业的运行日志显示，观察大部分task的数据本地化级别。
如果是发现，好多的级别都是NODE_LOCAL、ANY，那么最好就去调节一下数据本地化的等待时长。
看看大部分的task的本地化级别有没有提升，spark作业的运行时间有没有缩短。
如果spark作业的运行时间反而增加了，那就还是不要调节了。

本地化级别

PROCESS_LOCAL：进程本地化，代码和数据在同一个进程中，也就是在同一个executor中；计算数据的task由executor执行，数据在executor的BlockManager中；性能最好
NODE_LOCAL：节点本地化，代码和数据在同一个节点中；比如说，数据作为一个HDFS block块，就在节点上，而task在节点上某个executor中运行；或者是，数据和task在一个节点上的不同executor中；数据需要在进程间进行传输
NO_PREF：对于task来说，数据从哪里获取都一样，没有好坏之分
RACK_LOCAL：机架本地化，数据和task在一个机架的两个节点上；数据需要通过网络在节点之间进行传输
ANY：数据和task可能在集群中的任何地方，而且不在一个机架中，性能最差

1.5 JVM调优

首先估计GC的影响

GC调优的第一步就是去统计GC发生的频率和GC消耗时间。
通过添加：

./bin/spark-submit \
--name "My app" \
--master local[4] \
--conf spark.eventLog.enabled=false \
--conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" \
myApp.jar

在作业运行的时候能够看到worker的日志里面在每次GC的时候就打印出GC信息。

使用jvisualvm来监控Spark应用程序

可以看到Spark应用程序堆，线程的使用情况，看不到GC回收的次数时间什么的，从而根据这些数据去优化您的程序。

在$SPARK_HOME/conf目录下配置spark-default.conf文件，加入如下配置：

spark.driver.extraJavaOptions   -Dcom.sun.management.jmxremote.port=1099 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false

启动Spark应用程序
打开jvisualvm.exe监控
在JDK安装的bin目录下有个jvisualvm.exe，双击它，然后进行配置，依次选择文件-> 添加JMX连接，在连接文本框填上Driver机器的地址和端口

了解GC相关原理

了解更多GC调优方法前我们需要了解JVM内存管理：

Java堆空间被分成 Young 和 Old 两个regions。Young generation 顾名思义保存短期使用的对象，而 Old generation 用于保存有更长使用周期的对象。
Young generation 被细分成三个regions：[Eden, Survivor1, Survivor2]。
简述GC：
1. 当 Eden 空间满了, Eden 会进行一次较小的minor GC，依然存活的对象会从Eden and Survivor1 复制到 Survivor2。
2. 当Survivor2的 Object 足够老或者 Survivor2 空间满了, 对象就会被移到 Old。最后当 Old 空间也接近使用完，就会发生full GC。
3. Eden的内存太小会频繁的进行minor gc，导致有些短生命周期对象在没有被回收掉，年龄变大放到老年代了，导致full gc。
  minor gc后会将存活下来的对象，放入之前空闲的那一个survivor区域中。默认eden、survior1和survivor2的内存占比是8:1:1。如果存活下来的对象是1.5，一个survivor区域放不下。
GC调优的目标
1. 保证在Old generation只存储有长期存活的RDD；
2. Young generation有足够的空间存储短期的对象，避免full GC将作业执行时创建的短期的对象也回收掉。
3. 避免Young generation频繁minor GC
GC调优做法：
1. 通过收集GC状态检查是否有大量的垃圾回收，如果在作业完成前有多次 full GC，意味着没有足够的内存给执行的task。
2. 如果进行了多次 minorGC，分配更多的内存给Eden也许会有帮助。只要将Eden的内存E设置成大于每个task需要的内存大小，Young generation 则设置成 -Xmn=4/3*E。
3. 如果OldGen将要完全占满，可以减少spark.memory.fraction。改变JVM的NewRatio参数，默认设置是2，表示Old generation占用了 2/3的 heap内存，应该设置得足够大超过并超过spark.memory.fraction。另外可以考虑减少Young generation的大小通过调低 -Xmn。
4. 尝试使用G1GC 收集器通过配置 -XX:+UseG1GC 。如果executor需要大的堆内存，那么通过配置-XX:G1HeapRegionSize来提高G1 region size 是很重要的。
5. 如果作业从HDFS中读取数据，可通过作业使用的block大小推测使用的内存大小，读取出来的block通常是存储大小的2-3倍。如果有4个作业去使用一个HDFS的128MB的block，我们预估Eden需要43128MB。

spark-submit脚本里面，去用--conf的方式，去添加配置：

--conf spark.memory.fraction，0.6 -> 0.5 -> 0.4 -> 0.2
--conf spark.shuffle.memoryFraction=0.3

调节executor堆外内存

有时候，如果你的spark作业处理的数据量特别特别大；
然后spark作业一运行，时不时的报错，shuffle file cannot find，executor、task lost，out of memory（内存溢出）；
可能是说executor的堆外内存不太够用，导致executor在运行的过程中会内存溢出；
然后导致后续的stage的task在运行的时候，可能要从一些executor中去拉取shuffle map output文件，但是executor可能已经挂掉了，关联的Block manager也没有了；spark作业彻底崩溃。

上述情况下，就可以去考虑调节一下executor的堆外内存。避免掉某些JVM OOM的异常问题。
此外，堆外内存调节的比较大的时候，对于性能来说，也会带来一定的提升。

spark-submit脚本里面，去用--conf的方式，去添加基于yarn的提交模式配置；

--conf spark.yarn.executor.memoryOverhead=2048

默认情况下，这个堆外内存上限大概是300多M；真正处理大数据的时候，这里都会出现问题，导致spark作业反复崩溃，无法运行；此时就会去调节这个参数到至少1G（1024M），甚至说2G、4G。

调节连接等待时长

我们知道 Executor，优先从自己本地关联的BlockManager中获取某份数据。
如果本地block manager没有的话，那么会通过TransferService，去远程连接其他节点上executor的block manager去获取。
正好碰到那个exeuctor的JVM在垃圾回收，就会没有响应，无法建立网络连接；
spark默认的网络连接的超时时长，是60s；
就会出现某某file。一串file id。uuid（dsfsfd-2342vs--sdf--sdfsd）。not found。file lost。
报错几次，几次都拉取不到数据的话，可能会导致spark作业的崩溃。也可能会导致DAGScheduler，反复提交几次stage。TaskScheduler，反复提交几次task。大大延长我们的spark作业的运行时间。

可以考虑在spark-submit脚本里面，调节连接的超时时长：

--conf spark.core.connection.ack.wait.timeout=300

OOM相关

Spark中的OOM问题不外乎两种情况：

map执行中内存溢出
shuffle后内存溢出，shuffle后内存溢出的shuffle操作包括join，reduceByKey，repartition等操作。

可以先理一下Spark内存模型，再总结各种OOM的情况相对应的解决办法和性能优化方面的总结。

map过程产生大量对象导致内存溢出

这种溢出的原因是在单个map中产生了大量的对象导致的，

例如：rdd.map(x=>for(i <- 1 to 10000) yield i.toString)

这个操作在rdd每个对象都产生了10000个对象，这肯定很容易产生内存溢出的问题。
针对这种问题，在不增加内存的情况下，可以通过减少每个Task的大小，让Executor的内存也能够装得下。
具体做法可以在会产生大量对象的map操作之前调用repartition方法，分区成更小的块传入map。

例如：rdd.repartition(10000).map(x=>for(i <- 1 to 10000) yield i.toString)。

面对这种问题注意，不能使用rdd.coalesce方法，这个方法只能减少分区，不能增加分区，不会有shuffle的过程。

数据不平衡导致内存溢出

也可如上面进行repartition

coalesce减少分区导致内存溢出

因为hdfs中不适合存小文件，所以Spark计算后如果产生的文件太小，会调用coalesce合并文件再存入hdfs中。
这会导致一个问题：有100个文件，现在调用coalesce(10)，意味着能够有100个Task，最后只产生10个文件，
因为coalesce并不是shuffle操作，意味着coalesce并不是先执行100个Task，再将Task的执行结果合并成10个，
而是从头到位只有10个Task在执行，每个Task同时一次读取10个文件，使用的内存是原来的10倍，这导致了OOM。

解决这个问题的方法是令程序按照我们想的先执行100个Task再将结果合并成10个文件，
可以通过repartition解决，调用repartition(10)，
因为这就有一个shuffle的过程，shuffle前后是两个Stage，一个100个分区，一个是10个分区，就能按照我们的想法执行。

shuffle后内存溢出：

shuffle内存溢出的情况可以说都是shuffle后，单个文件过大导致的。
在Spark中，join，reduceByKey这一类型的过程，都会有shuffle的过程，在shuffle的使用，需要传入一个partitioner，
默认的partitioner都是HashPatitioner，默认值是父RDD中最大的分区数,这个参数通过spark.default.parallelism控制(在spark-sql中用spark.sql.shuffle.partitions) ，
spark.default.parallelism参数只对HashPartitioner有效，所以如果是别的Partitioner或者自己实现的Partitioner就不能使用spark.default.parallelism这个参数来控制shuffle的并发量了。
如果是别的partitioner导致的shuffle内存溢出，就需要从partitioner的代码增加partitions的数量。

1.6 Suffle调优

1.6.1 shuffle流程

shuffle，一定是分为两个stage来完成的。
因为这其实是个逆向的过程，不是stage决定shuffle，是shuffle决定stage。
在某个action触发job的时候，DAGScheduler会负责划分job为多个stage。划分的依据，就是如果发现有会触发shuffle操作的算子（reduceByKey）。

每一个shuffle的前半部分stage的task，每个task都会创建下一个stage的task数量相同的文件，
比如下一个stage会有10个task，那么当前stage每个task都会创建10份文件；
会将同一个key对应的values，写入同一个文件中的；
不同节点上的task，也一定会将同一个key对应的values，写入下一个stage的同一个task对应的文件中。

shuffle的后半部分stage的task，每个task都会从各个节点上的task写的属于自己的那一份文件中，拉取key, value对；
然后task会有一个内存缓冲区，然后会用HashMap，进行key, values的汇聚；
task会用我们自己定义的聚合函数reduceByKey(+)，把所有values进行一对一的累加；聚合出来最终的值。

1.6.2 合并map端输出文件（优化的hashShuffle)

sparConf().set("spark.shuffle.consolidateFiles", "true")

开启了map端输出文件的合并机制之后：

第一个stage，同时运行cpu core个task，比如cpu core是2个，并行运行2个task；每个task都创建下一个stage的task数量个文件；

第一个stage，并行运行的2个task执行完以后；就会执行另外两个task；另外2个task不会再重新创建输出文件；而是复用之前的task创建的map端输出文件，将数据写入上一批task的输出文件中。

第二个stage，task在拉取数据的时候，就不会去拉取上一个stage每一个task为自己创建的那份输出文件了；而是拉取少量的输出文件，每个输出文件中，可能包含了多个task给自己的map端输出。

1.6.3 调节map端内存缓冲与reduce端内存占比

深入一下shuffle原理：
shuffle的map task：
输出到磁盘文件的时候，统一都会先写入每个task自己关联的一个内存缓冲区。
这个缓冲区大小，默认是32kb。当内存缓冲区满溢之后，会进行spill溢写操作到磁盘文件中去。
数据量比较大的情况下可能导致多次溢写。

shuffle的reduce端task：
在拉取到数据之后，会用hashmap的数据格式，来对各个key对应的values进行汇聚的时候。
使用的就是自己对应的executor的内存，executor（jvm进程，堆），默认executor内存中划分给reduce task进行聚合的比例，是0.2。
要是拉取过来的数据很多，那么在内存中，放不下；就将在内存放不下的数据，都spill（溢写）到磁盘文件中去。
数据大的时候磁盘上溢写的数据量越大，后面在进行聚合操作的时候，很可能会多次读取磁盘中的数据，进行聚合。

怎么调节？
看Spark UI，shuffle的磁盘读写的数据量很大，就意味着最好调节一些shuffle的参数。进行调优。

set(spark.shuffle.file.buffer，64)      // 默认32k  每次扩大一倍，看看效果。
set(spark.shuffle.memoryFraction，0.2)  // 每次提高0.1，看看效果。

很多资料都会说这两个参数，是调节shuffle性能的不二选择，实际上不是这样的。
以实际的生产经验来说，这两个参数没有那么重要，shuffle的性能不是因为这方面的原因导致的。

1.6.4 HashShuffleManager与SortShuffleManager

上面我们所讲shuffle原理是指HashShuffleManager，是很过时的shuffle manager。
之前讲解的一些调优的点，比如consolidateFiles机制、map端缓冲、reduce端内存占比。这些对任何shuffle manager都是有用的。

在spark 1.5.x后，又出来了一种tungsten-sort shuffleMnager。效果跟sort shuffle manager是差不多的。
唯一的不同之处在于tungsten-sort shuffleMnager，是使用了自己实现的一套内存管理机制以及堆内存，性能上有很大的提升可以避免shuffle过程中产生的大量的OOM，GC。

SortShuffleManager与HashShuffleManager两点不同：

SortShuffleManager会对每个reduce task要处理的数据，进行排序（默认的）。
SortShuffleManager会一个task，只会写入一个磁盘文件，不同reduce task的数据，用offset来划分界定。

hash、sort、tungsten-sort。如何来选择？

需不需要数据默认就让spark给你进行排序？就好像mapreduce，默认就是有按照key的排序。
如果不需要的话，其实还是建议搭建就使用最基本的HashShuffleManager，因为最开始就是考虑的是不排序，换取高性能；

2、什么时候需要用sort shuffle manager？如果你需要你的那些数据按key排序了，那么就选择这种吧。
而且要注意，reduce task的数量应该是超过200的，这样sort、merge（多个文件合并成一个）的机制，才能生效把。
但是这里要注意，你一定要自己考量一下，有没有必要在shuffle的过程中，就做这个事情，毕竟对性能是有影响的。

3、如果你不需要排序，而且你希望你的每个task输出的文件最终是会合并成一份的，你自己认为可以减少性能开销；
可以去调节bypassMergeThreshold这个阈值，比如你的reduce task数量是500，默认阈值是200，所以默认还是会进行sort和直接merge的；
可以将阈值调节成550，不会进行sort，按照hash的做法，每个reduce task创建一份输出文件，最后合并成一份文件。
（一定要提醒大家，这个参数，其实我们通常不会在生产环境里去使用，也没有经过验证说，这样的方式，到底有多少性能的提升）

4、如果你想选用sort based shuffle manager，而且你们公司的spark版本比较高，
是1.5.x版本的，那么可以考虑去尝试使用tungsten-sort shuffle manager。
看看性能的提升与稳定性怎么样。（唉，开源出来的项目都是落后了快五年了的）

总结：
1、在生产环境中，不建议大家贸然使用第三点和第四点：
2、如果你不想要你的数据在shuffle时排序，那么就自己设置一下，用hash shuffle manager。
3、如果你的确是需要你的数据在shuffle时进行排序的，那么就默认不用动，默认就是sort shuffle manager；或者是什么？如果你压根儿不care是否排序这个事儿，那么就默认让他就是sort的。调节一些其他的参数（consolidation机制）。（80%，都是用这种）

new SparkConf().set("spark.shuffle.manager", "hash")  // hash、tungsten-sort、默认为sort
new SparkConf().set("spark.shuffle.sort.bypassMergeThreshold", "550")   // 默认200

当reduce task数量少于等于200；map task创建的输出文件小于等于200的；会将所有的输出文件合并为一份文件。且不进行sort排序，节省了性能开销。

1.7 算子调优

1.7.1 MapPartitions提升Map类操作性能

这里需要稍微讲一下RDD和DataFrame的区别。
RDD强调的是不可变对象，每个RDD都是不可变的，当调用RDD的map类型操作的时候，都是产生一个新的对象。
这就导致如果对一个RDD调用大量的map类型操作的话，每个map操作会产生一个到多个RDD对象，
这虽然不一定会导致内存溢出，但是会产生大量的中间数据，增加了gc操作。
另外RDD在调用action操作的时候，会出发Stage的划分，但是在每个Stage内部可优化的部分是不会进行优化的，
例如rdd.map(+1).map(+1)，这个操作在数值型RDD中是等价于rdd.map(_+2)的，但是RDD内部不会对这个过程进行优化。

DataFrame则不同，DataFrame由于有类型信息所以是可变的，并且在可以使用sql的程序中，都有除了解释器外，都会有一个sql优化器Catalyst，

上面说到的这些RDD的弊端，有一部分就可以使用mapPartitions进行优化，
mapPartitions可以同时替代rdd.map,rdd.filter,rdd.flatMap的作用，
所以在长操作中，可以在mapPartitons中将RDD大量的操作写在一起，避免产生大量的中间rdd对象，
另外是mapPartitions在一个partition中可以复用可变类型，这也能够避免频繁的创建新对象。

普通的mapToPair，当一个partition中有1万条数据，function要执行和计算1万次。
但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有的partition数据。只要执行一次就可以了，性能比较高。
但是MapPartitions操作，对于大量数据来说，一次传入一个function以后，可能一下子内存不够而且又没法腾出内存空间的话，可能就OOM！

在项目中，自己先去估算一下RDD的数据量，以及每个partition的量，还有自己分配给每个executor的内存资源，看看一下子内存容纳所有的partition数据。

1.7.2 使用coalesce减少分区数量

repartition 是 coalesce

从源码中可以看出repartition方法其实就是调用了coalesce方法，shuffle为true的情况. 现在假设RDD有X个分区,需要重新划分成Y个分区.
1.如果x<y,说明x个分区里有数据分布不均匀的情况,利用HashPartitioner把x个分区重新划分成了y个分区,此时,需要把shuffle设置成true才行,因为如果设置成false,不会进行shuffle操作,此时父RDD和子RDD之间是窄依赖,这时并不会增加RDD的分区.

2.如果x>y,需要先把x分区中的某些个分区合并成一个新的分区,然后最终合并成y个分区,此时,需要把coalesce方法的shuffle设置成false.

总结:如果想要增加分区的时候,可以用repartition或者coalesce+true。但是一定要有shuffle操作,分区数量才会增加。

RDD这种filter之后，RDD中的每个partition的数据量，可能都不太一样了。
问题：
1、每个partition数据量变少了，但是在后面进行处理的时候，还跟partition数量一样数量的task，来进行处理；有点浪费task计算资源。
2、每个partition的数据量不一样，会导致后面的每个task处理每个partition的时候，每个task要处理的数据量就不同，处理速度相差大，导致数据倾斜。。。。

针对上述的两个问题，能够怎么解决呢？

1、针对第一个问题，希望可以进行partition的压缩吧，因为数据量变少了，那么partition其实也完全可以对应的变少。
比如原来是4个partition，现在完全可以变成2个partition。
那么就只要用后面的2个task来处理即可。就不会造成task计算资源的浪费。

2、针对第二个问题，其实解决方案跟第一个问题是一样的；也是去压缩partition，尽量让每个partition的数据量差不多。
那么这样的话，后面的task分配到的partition的数据量也就差不多。
不会造成有的task运行速度特别慢，有的task运行速度特别快。避免了数据倾斜的问题。

主要就是用于在filter操作之后，添加coalesce算子，针对每个partition的数据量各不相同的情况，来压缩partition的数量。
减少partition的数量，而且让每个partition的数据量都尽量均匀紧凑。

1.7.3 foreachPartition优化写数据库性能

默认的foreach的性能缺陷在哪里？

对于每条数据，都要单独去调用一次function，task为每个数据都要去执行一次function函数。如果100万条数据，（一个partition），调用100万次。性能比较差。
浪费数据库连接资源。

在生产环境中，都使用foreachPartition来写数据库
1、对于我们写的function函数，就调用一次，一次传入一个partition所有的数据，但是太多也容易OOM。
2、主要创建或者获取一个数据库连接就可以
3、只要向数据库发送一次SQL语句和多组参数即可

local模式跑的时候foreachPartition批量入库会卡住，可能资源不足，因为用standalone集群跑的时候不会出现。

1.7.4 repartition 解决Spark SQL低并行度的性能问题

并行度：可以这样调节：
1、spark.default.parallelism 指定为全部executor的cpu core总数的2~3倍
2、textFile()，传入第二个参数，指定partition数量（比较少用）
但是通过spark.default.parallelism参数指定的并行度，只会在没有Spark SQL的stage中生效。
Spark SQL自己会默认根据hive表对应的hdfs文件的block，自动设置Spark SQL查询所在的那个stage的并行度。

比如第一个stage，用了Spark SQL从hive表中查询出了一些数据，然后做了一些transformation操作，接着做了一个shuffle操作（groupByKey），这些都不会应用指定的并行度可能会有非常复杂的业务逻辑和算法，就会导致第一个stage的速度，特别慢；下一个stage，在shuffle操作之后，做了一些transformation操作才会变成你自己设置的那个并行度。

解决上述Spark SQL无法设置并行度和task数量的办法，是什么呢？

repartition算子，可以将你用Spark SQL查询出来的RDD，使用repartition算子时，去重新进行分区，此时可以分区成多个partition，比如从20个partition分区成100个。
就可以避免跟Spark SQL绑定在一个stage中的算子，只能使用少量的task去处理大量数据以及复杂的算法逻辑。

1.7.5 reduceByKey本地聚合介绍

reduceByKey，相较于普通的shuffle操作（比如groupByKey），它有一个特点：底层基于CombineByKey，会进行map端的本地聚合。
对map端给下个stage每个task创建的输出文件中，写数据之前，就会进行本地的combiner操作，也就是说对每一个key，对应的values，都会执行你的算子函数。

用reduceByKey对性能的提升：
1、在本地进行聚合以后，在map端的数据量就变少了，减少磁盘IO。而且可以减少磁盘空间的占用。
2、下一个stage，拉取数据的量，也就变少了。减少网络的数据传输的性能消耗。
3、在reduce端进行数据缓存的内存占用变少了，要进行聚合的数据量也变少了。

reduceByKey在什么情况下使用呢？
1、简单的wordcount程序。
2、对于一些类似于要对每个key进行一些字符串拼接的这种较为复杂的操作，可以自己衡量一下，其实有时，也是可以使用reduceByKey来实现的。
但是不太好实现。如果真能够实现出来，对性能绝对是有帮助的。

1.8 troubleshooting调优

1.8.1 控制shuffle reduce端缓冲大小以避免OOM

map端的task是不断的输出数据的，数据量可能是很大的。
但是，在map端写过来一点数据，reduce端task就会拉取一小部分数据，先放在buffer中，立即进行后面的聚合、算子函数的应用。
每次reduece能够拉取多少数据，就由buffer来决定。然后才用后面的executor分配的堆内存占比（0.2），hashmap，去进行后续的聚合、函数的执行。

reduce端缓冲默认是48MB（buffer），可能会出什么问题？
缓冲达到最大极限值，再加上你的reduce端执行的聚合函数的代码，可能会创建大量的对象。reduce端的内存中，就会发生内存溢出的问题。
这个时候，就应该减少reduce端task缓冲的大小。我宁愿多拉取几次，但是每次同时能够拉取到reduce端每个task的数量，比较少，就不容易发生OOM内存溢出的问题。

另外，如果你的Map端输出的数据量也不是特别大，然后你的整个application的资源也特别充足，就可以尝试去增加这个reduce端缓冲大小的，比如从48M，变成96M。
这样每次reduce task能够拉取的数据量就很大。需要拉取的次数也就变少了。
最终达到的效果，就应该是性能上的一定程度上的提升。
设置
spark.reducer.maxSizeInFlight

1.8.2 解决JVM GC导致的shuffle文件拉取失败

比如，executor的JVM进程，内存不够了，发生GC，导致BlockManger,netty通信都停了。
下一个stage的executor，可能是还没有停止掉的，task想要去上一个stage的task所在的exeuctor，去拉取属于自己的数据，结果由于对方正在GC，就导致拉取了半天没有拉取到。
可能会报错shuffle file not found。
但是，可能下一个stage又重新提交了stage或task以后，再执行就没有问题了，因为可能第二次就没有碰到JVM在gc了。
有的时候，出现这种情况以后，会重新去提交stage、task。重新执行一遍，发现就好了。没有这种错误了。

spark.shuffle.io.maxRetries 3
spark.shuffle.io.retryWait 5s

针对这种情况，我们完全可以进行预备性的参数调节。
增大上述两个参数的值，达到比较大的一个值，尽量保证第二个stage的task，一定能够拉取到上一个stage的输出文件。
尽量避免因为gc导致的shuffle file not found，无法拉取到的问题。

1.8.3 yarn-cluster模式的JVM内存溢出无法执行问题

总结一下yarn-client和yarn-cluster模式的不同之处：
yarn-client模式，driver运行在本地机器上的；yarn-cluster模式，driver是运行在yarn集群上某个nodemanager节点上面的。
yarn-client的driver运行在本地，通常来说本地机器跟yarn集群都不会在一个机房的，所以说性能可能不是特别好；yarn-cluster模式下，driver是跟yarn集群运行在一个机房内，性能上来说，也会好一些。

实践经验，碰到的yarn-cluster的问题：

有的时候，运行一些包含了spark sql的spark作业，可能会碰到yarn-client模式下，可以正常提交运行；yarn-cluster模式下，可能是无法提交运行的，会报出JVM的PermGen（永久代）的内存溢出，会报出PermGen Out of Memory error log。

yarn-client模式下，driver是运行在本地机器上的，spark使用的JVM的PermGen的配置，是本地的spark-class文件（spark客户端是默认有配置的），JVM的永久代的大小是128M，这个是没有问题的；但是在yarn-cluster模式下，driver是运行在yarn集群的某个节点上的，使用的是没有经过配置的默认设置（PermGen永久代大小），82M。

spark-submit脚本中，加入以下配置即可：
--conf spark.driver.extraJavaOptions="-XX:PermSize=128M -XX:MaxPermSize=256M"

另外，sql有大量的or语句。可能就会出现一个driver端的jvm stack overflow。
基本上就是由于调用的方法层级过多，因为产生了非常深的，超出了JVM栈深度限制的，递归。spark sql内部源码中，在解析sqlor特别多的话，就会发生大量的递归。
建议不要搞那么复杂的spark sql语句。
采用替代方案：将一条sql语句，拆解成多条sql语句来执行。
每条sql语句，就只有100个or子句以内；一条一条SQL语句来执行。

1.9 数据倾斜条调优

1.9.1 数据倾斜的原理、现象、产生原因与定位

原因
在执行shuffle操作的时候，是按照key，来进行values的数据的输出、拉取和聚合的。
同一个key的values，一定是分配到一个reduce task进行处理的。
假如多个key对应的values，总共是90万。
可能某个key对应了88万数据，分配到一个task上去面去执行，执行很慢。而另外两个task，可能各几十个key分配到了1万数据，出现数据倾斜。
定位：在自己的程序里面找找，哪些地方用了会产生shuffle的算子，groupByKey、countByKey、reduceByKey、join。
看log，看看是执行到了第几个stage。
哪一个stage，task特别慢或者只有一部分task在工作，就能够从spark代码的stage划分，通过stage定位到你的代码，哪里发生了数据倾斜。

第一个方案：聚合源数据
做一些聚合的操作：groupByKey、reduceByKey，说白了就是对每个key对应的values执行一定的计算。

spark作业的数据来源如果是hive，可以直接在生成hive表的hive etl中，对数据进行聚合。
比如按key来分组，将key对应的所有的values，全部用一种特殊的格式，拼接到一个字符串里面去，每个key就只对应一条数据。比如

key=sessionid, value: action_seq=1|user_id=1|search_keyword=火锅|category_id=001;action_seq=2|user_id=1|search_keyword=涮肉|category_id=001”。

然后在spark中，拿到key=sessionid，values<Iterable>。

或者在hive里面就进行reduceByKey计算。
spark中就不需要再去执行groupByKey+map这种操作了。
直接对每个key对应的values字符串进行map进行你需要的操作即可。也就根本不可能导致数据倾斜。

具体怎么去在hive etl中聚合和操作，就得根据你碰到数据倾斜问题的时候，你的spark作业的源hive表的具体情况，具体需求，具体功能，具体分析。

具体对于我们的程序来说，完全可以将aggregateBySession()这一步操作，放在一个hive etl中来做，形成一个新的表。
对每天的用户访问行为数据，都按session粒度进行聚合，写一个hive sql。

在spark程序中，就不要去做groupByKey+mapToPair这种算子了。
直接从当天的session聚合表中，用SparkSQL查询出来对应的数据，即可。
这个RDD在后面就可以使用了。

第二个方案：过滤导致倾斜的key
如果你能够接受某些数据，在spark作业中直接就摒弃掉，不使用。
比如说，总共有100万个key。只有2个key，是数据量达到10万的。其他所有的key，对应的数量都是几十。
这个时候，你自己可以去取舍，如果业务和需求可以理解和接受的话，在你从hive表查询源数据的时候，直接在sql中用where条件，过滤掉某几个key。
那么这几个原先有大量数据，会导致数据倾斜的key，被过滤掉之后，那么在你的spark作业中，自然就不会发生数据倾斜了。

1.9.2 提高shuffle操作的reduce并行度

将reduce task的数量，变多，就可以让每个reduce task分配到更少的数据量。
这样的话，也许就可以缓解，或者甚至是基本解决掉数据倾斜的问题。
提升shuffle reduce端并行度，怎么来操作？
在调用shuffle算子的时候，传入进去一个参数。
就代表了那个shuffle操作的reduce端的并行度。那么在进行shuffle操作的时候，就会对应着创建指定数量的reduce task。
按照log，找到发生数据倾斜的shuffle操作，给它传入一个并行度数字，这样的话，原先那个task分配到的数据，肯定会变少。就至少可以避免OOM的情况，程序至少是可以跑的。

但是没有从根本上改变数据倾斜的本质和问题。
不像第一个和第二个方案（直接避免了数据倾斜的发生）。
原理没有改变，只是说，尽可能地去缓解和减轻shuffle reduce task的数据压力，以及数据倾斜的问题。

实际生产环境中的经验。
1、如果最理想的情况下，提升并行度以后，减轻了数据倾斜的问题，那么就最好。就不用做其他的数据倾斜解决方案了。
2、不太理想的情况下，就是比如之前某个task运行特别慢，要5个小时，现在稍微快了一点，变成了4个小时；或者是原先运行到某个task，直接OOM，现在至少不会OOM了，但是那个task运行特别慢，要5个小时才能跑完。
那么，如果出现第二种情况的话，各位，就立即放弃第三种方案，开始去尝试和选择后面的方案。

1.9.3 使用随机key实现双重聚合

1、原理
第一轮聚合的时候，对key进行打散，将原先一样的key，变成不一样的key，相当于是将每个key分为多组；比如原来是

(5,44)、(6,45)、(7,45)
就可以对key添加一个随机数
(1_5,44)、(3_6,45)、(2_7,45)
针对多个组，进行key的局部聚合；
接着，再去除掉每个key的前缀，恢复成
(5,44)、(6,45)、(7,45)
然后对所有的key，进行全局的聚合。

对groupByKey、reduceByKey造成的数据倾斜，有比较好的效果。

2、使用场景
（1）groupByKey
（2）reduceByKey

1.9.4 将导致倾斜的key单独进行join

这个方案关键之处在于:
将发生数据倾斜的key，单独拉出来，放到一个RDD中去；
用这个原本会倾斜的key RDD跟其他RDD，单独去join一下，
key对应的数据，可能就会分散到多个task中去进行join操作。
这个key跟之前其他的key混合在一个RDD中时，肯定是会导致一个key对应的所有数据，都到一个task中去，就会导致数据倾斜。

这种方案什么时候适合使用？

针对你的RDD的数据，你可以自己把它转换成一个中间表，或者是直接用countByKey()的方式，你可以看一下这个RDD各个key对应的数据量；
RDD有一个或少数几个key，是对应的数据量特别多；
此时可以采用咱们的这种方案，单拉出来那个最多的key；
单独进行join，尽可能地将key分散到各个task上去进行join操作。

1.9.5 使用随机数以及扩容表进行join

这个方案是没办法彻底解决数据倾斜的，更多的，是一种对数据倾斜的缓解。
局限性：
1、因为join两个RDD都很大，就没有办法去将某一个RDD扩的特别大，一般是10倍。
2、如果就是10倍的话，那么数据倾斜问题，只能说是缓解和减轻，不能说彻底解决。

步骤：
1、选择一个RDD，要用flatMap，进行扩容，将每条数据，映射为多条数据，每个映射出来的数据，都带了一个n以内的随机数，通常来说，会选择10。
2、将另外一个RDD，做普通的map映射操作，每条数据，都打上一个10以内的随机数。
3、最后，将两个处理后的RDD，进行join操作。
4、join完以后，可以执行map操作，去将之前打上的随机数给去掉，然后再和另外一个普通RDD join以后的结果，进行union操作。

sample采样倾斜key并单独进行join
将key，从另外一个RDD中过滤出的数据，可能只有一条，或者几条，此时，咱们可以任意进行扩容，扩成1000倍。
将从第一个RDD中拆分出来的那个倾斜key RDD，打上1000以内的一个随机数。
打散成100份，甚至1000份去进行join，那么就肯定没有数据倾斜的问题了吧。
这种情况下，还可以配合上，提升shuffle reduce并行度，join(rdd, 1000)。

posted @ 2019-03-22 10:18 stillcoolme 阅读(1795) 评论(0) 收藏举报

刷新页面返回顶部

放着，让我来！！