spark目录导图

前期工作

scala

一、介绍

1.1、RDD介绍

1.2、缓存策略

  • cache persist, StorageLevel
  • Lineage , 如果Lineage过长,为了容错,就需要进行缓存或者checkpoint
  • 宽窄依赖
  • Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存。
      控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘,还能切断RDD之间的依赖关系。

1.3、Spark之任务流程和角色

  • job的切分
  • 任务的调度
  • 执行架构

1.4、在Eclipse上调试Spark项目

二、安装

2.1、yarn-cluster

2.2、Spark升级注意事项

三、算子

3.1、算子的使用

四、简单案例

4.1、spark 简单案例

4.2、Spark SQL

4.3、Spark Streaming

五、优化

5.1、常规性能调优

5.2、JVM调优

5.3、shuffle调优

5.4、数据倾斜

5.5、如何防止内存溢出

六、问题

七、项目

Spark源码系列

7.1、电商用户行为分析大数据系统

7.2、推荐系统

7.3、YCLL

关注我的公众号[宝哥大数据]

在这里插入图片描述

posted @ 2021-06-17 15:40  宝哥大数据  阅读(62)  评论(0编辑  收藏  举报