Spark - 随笔分类 - liudehaos

spark 优化总结(面试必问)

摘要：spark优化总结: 一、spark 代码优化六大代码优化:避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化尽量避免使用shuffle类算子使用map-side预聚合的shuffle操作使用高性能的算子广播大变量使用Kryo优化序列化性能优化数据结构使用高性阅读全文

posted @ 2022-07-21 19:55 liudehaos 阅读(1825) 评论(0) 推荐(0)

spark wordcount案例

摘要：一、依赖 maven依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-ins 阅读全文

posted @ 2022-07-20 22:28 liudehaos 阅读(67) 评论(0) 推荐(0)

Spark core 重点总结

摘要：Spark 资源调度和任务调度 RDD五大特性 1、RDD由一组partition组成 2、每一个分区由一个task来处理 3、RDD之间有一些列依赖关系 4、分区类算子必须作用在kv格式得RDD上 5、spark为task执行提供了最佳计算位置，尽量将task发送到数据所在节点执行 spark程序阅读全文

posted @ 2022-07-20 21:30 liudehaos 阅读(68) 评论(0) 推荐(0)

liudehaos

公告

随笔分类 - Spark

spark 优化总结(面试必问)

spark wordcount案例

Spark core 重点总结