摘要:spark优化总结: 一、spark 代码优化 六大代码优化:避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化 尽量避免使用shuffle类算子 使用map-side预聚合的shuffle操作 使用高性能的算子 广播大变量 使用Kryo优化序列化性能 优化数据结构 使用高性
阅读全文
posted @ 2022-07-21 19:55
|
|||
随笔分类 - Spark
摘要:spark优化总结: 一、spark 代码优化 六大代码优化:避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化 尽量避免使用shuffle类算子 使用map-side预聚合的shuffle操作 使用高性能的算子 广播大变量 使用Kryo优化序列化性能 优化数据结构 使用高性
阅读全文
posted @ 2022-07-21 19:55
摘要:一、依赖 maven依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-ins
阅读全文
posted @ 2022-07-20 22:28
摘要:Spark 资源调度和任务调度 RDD五大特性 1、RDD由一组partition组成 2、每一个分区由一个task来处理 3、RDD之间有一些列依赖关系 4、分区类算子必须作用在kv格式得RDD上 5、spark为task执行提供了最佳计算位置,尽量将task发送到数据所在节点执行 spark程序
阅读全文
posted @ 2022-07-20 21:30
|
|||