spark目录导图

前期工作

scala

一、介绍

1.1、RDD介绍

1.2、缓存策略

cache persist, StorageLevel
Lineage ，如果Lineage过长，为了容错，就需要进行缓存或者checkpoint
宽窄依赖
Spark中控制算子也是懒执行的，需要Action算子触发才能执行，主要是为了对数据进行缓存。
控制算子有三种，cache,persist,checkpoint，以上算子都可以将RDD持久化，持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘，还能切断RDD之间的依赖关系。

1.3、Spark之任务流程和角色

job的切分
任务的调度
执行架构

1.4、在Eclipse上调试Spark项目

二、安装

配置HA
DAG Visualization 点击之后没有任何反应？，做各种尝试，都没有作用，最后发现的确是浏览器问题（换成chrome就可以了）。
Ambari上spark2.1.1的Spark History ServerUI无法显示appliation信息, 这个也是浏览器问题
spark源码编译

2.1、yarn-cluster

2.2、Spark升级注意事项

三、算子

3.1、算子的使用

四、简单案例

4.1、spark 简单案例

4.2、Spark SQL

4.3、Spark Streaming

sparkSteaming介绍
- SparkStreaming案例
- Input DStreams and Receivers
- 从一个监听端口读取数据流
- 从kafka中获取数据
算子
- foreachRDD的正确使用方式
- 过滤刷广告的用户 transform()的使用
- UpdateStateByKey
- Window Operations
- Spark Streaming中的4种常见操作函数的分析

五、优化

5.1、常规性能调优

5.1.1、并行度
5.1.2、广播变量
一个excetor拷贝一个副本，减少内存开销和网络传输。
5.1.3、kyro序列化

5.2、JVM调优

5.3、shuffle调优

5.4、数据倾斜

5.5、如何防止内存溢出

六、问题

七、项目

Spark源码系列

7.1、电商用户行为分析大数据系统

7.2、推荐系统

7.3、YCLL

关注我的公众号[宝哥大数据]

posted @ 2021-06-17 15:40 宝哥大数据阅读(74) 评论(0) 收藏举报

刷新页面返回顶部