Spark 2.x管理与开发-Spark SQL-性能优化（二）性能优化相关参数

Posted on 2020-08-01 11:05 MissRong 阅读(239) 评论(0) 收藏举报

一、将数据缓存到内存中的相关优化参数

spark.sql.inMemoryColumnarStorage.compressed

spark.sql.inMemoryColumnarStorage.batchSize

spark.sql.files.maxPartitionBytes

spark.sql.files.openCostInBytes

默认值：4M
打开文件的估算成本, 按照同一时间能够扫描的字节数来测量。当往一个分区写入多个文件的时候会使用。高估更好, 这样的话小文件分区将比大文件分区更快 (先被调度)。

spark.sql.autoBroadcastJoinThreshold

默认值：10M
用于配置一个表在执行 join 操作时能够广播给所有 worker 节点的最大字节大小。通过将这个值设置为 -1 可以禁用广播。注意，当前数据统计仅支持已经运行了 ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan 命令的 Hive Metastore 表。

spark.sql.shuffle.partitions

在写Spark程序的时候将某些参数进行修改即可：

Eg:将读取文件时单个分区可容纳的最大字节数修改成512MB

val spark=SparkSession.builder().appName(“HieToMySQL”).config(“spark.sql.files.maxPartitionBytes”,“512”).enableHiveSupport().getOrCreate()

一般情况下，工作状况中这些参数是不会进行修改的，因为这些参数之间会有些许联系，彼此之间会互相影响，修改参数的值可能会踩坑。

刷新页面返回顶部