spark 日常使用问题集合

1 . spark广播加入错误,即使spark.sql.autoBroadcastJoinThreshold=-1

任务设置spark.sql.autoBroadcastJoinThreshold=-1  但是在实际执行中设置未生效 即使我把它指定为-1,它也要尝试在做一个广播加入

设置spark.sql.adaptive.enabled=false

Spark的自适应查询执行在某些情况下会自动将连接类型切换为广播,即使没有通过连接阈值指定广播连接。默认情况下,spark.sql.adaptive.enables为true

2. 设置task任务失败重复次数为1

spark.task.maxFailures=1

 

2. 设置task任务失败重复次数为1

有些经常跑任务报一些连接超时 shuffle失败什么的 可以考虑增加下面的参数 会降低一些报错率和提升一些性能。

spark.shuffle.registration.timeout=120000
spark.shuffle.registration.maxAttempts=5
spark.shuffle.io.numConnectionsPerPeer=10
spark.shuffle.io.maxRetries=5
spark.shuffle.io.retryWait=20S
spark.shuffle.io.serverThread=128
spark.shuffle.io.backLog=8192
spark.shuffle.file.buffer=1MB
#spark.io.compression.lz4.blockSize=512KB
spark.network.timeout=600000
spark.shuffle.unsafe.file.output.buffer=5MB
spark.unsafe.sorter.spill.reader.buffer.size=1MB
spark.executor.heartbeatInterval=600000
spark.yarn.am.waitTime=1000s
spark.shuffle.service.index.cache.size=100m
#spark.io.compression.codec=lz4
spark.kryoserializer.buffer.max=64m
spark.kryoserializer.buffer=64k
spark.io.compression.codec=zstd
spark.io.compression.zstd.level=1
spark.io.compression.zstd.bufferSize=512KB
spark.sql.hive.filesourcePartitionFileCacheSize=0

posted @ 2022-09-03 18:51  落地的果实  阅读(703)  评论(0)    收藏  举报