摘要:
spark-数据倾斜 ==1.解决方案== 1.1使用Hive ETL预处理数据 1.2、过滤少数导致倾斜的key 1.3、提高shuffle操作的并行度 1.4、双重聚合 1.5、将reduce join转为map join 1.6 、采样倾斜key并分拆join操作 1. 7、使用随机前缀和扩容 阅读全文
posted @ 2022-07-21 23:17
a-tao必须奥利给
阅读(51)
评论(0)
推荐(0)
摘要:
spark-调优(配置层面) 1.executor的配置(重点) --num-executors executor的数量 --executor-memory 每一个executor的内存 --executor-cores 每一个executor的核心数 --driver-memory Driver的 阅读全文
posted @ 2022-07-21 22:41
a-tao必须奥利给
阅读(705)
评论(0)
推荐(0)
摘要:
spark-调优(代码) ==在编写代码时可以进行优化== 避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化 尽量避免使用shuffle类算子 使用map-side预聚合的shuffle操作 使用高性能的算子 广播大变量 使用Kryo优化序列化性能 优化数据结构 使用高性能 阅读全文
posted @ 2022-07-21 21:16
a-tao必须奥利给
阅读(82)
评论(0)
推荐(0)

浙公网安备 33010602011771号