liudehaos

还历史以真诚,还生命以过程。 ——余秋雨
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  Spark

摘要:spark优化总结: 一、spark 代码优化 六大代码优化:避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化 尽量避免使用shuffle类算子 使用map-side预聚合的shuffle操作 使用高性能的算子 广播大变量 使用Kryo优化序列化性能 优化数据结构 使用高性 阅读全文

posted @ 2022-07-21 19:55 liudehaos 阅读(1825) 评论(0) 推荐(0)

摘要:一、依赖 maven依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-ins 阅读全文

posted @ 2022-07-20 22:28 liudehaos 阅读(67) 评论(0) 推荐(0)

摘要:Spark 资源调度和任务调度 RDD五大特性 1、RDD由一组partition组成 2、每一个分区由一个task来处理 3、RDD之间有一些列依赖关系 4、分区类算子必须作用在kv格式得RDD上 5、spark为task执行提供了最佳计算位置,尽量将task发送到数据所在节点执行 spark程序 阅读全文

posted @ 2022-07-20 21:30 liudehaos 阅读(68) 评论(0) 推荐(0)