Spark学习路线

 

1 快速入门

官方快速入门文档:https://spark.apache.org/docs/3.1.1/quick-start.html

Spark教程 https://www.yiibai.com/spark/apache-spark-filter-function.html

2 Spark原理

1.1 Spark Core

    1.1.1 Spark 内存管理

1、Spark Executor内存管理  http://arganzheng.life/spark-executor-memory-management.html

    1.1.1 Spark 内置函数 https://www.yiibai.com/spark/apache-spark-filter-function.html

 

 

 

1.2 SparkSQL

  1.2.1 Spark SQL 特性

1)动态分区裁剪(Dynamic Partition Pruning)

一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)    https://mp.weixin.qq.com/s?__biz=MzA5MTc0NTMwNQ==&mid=2650718656&idx=1&sn=57de5460e470cb9e475799b972576463&chksm=887ddcb6bf0a55a0569c134bbfab39efd91fef01407df60c4e3681486856972b4e70c15a4b92&scene=21#wechat_redirect

一文了解 Apache Spark 3.0 动态分区裁剪的使用   https://zhuanlan.zhihu.com/p/92780641

 

2)自适应 Adaptive Execution

SparkSQL的自适应执行-Adaptive Execution  https://blog.csdn.net/u013411339/article/details/107075125

数据倾斜?Spark 3.0 AQE专治各种不服   https://www.cnblogs.com/importbigdata/p/14318575.html

3) Physical Plans in Spark SQL https://www.youtube.com/watch?v=9EIzhRKpiM8

 

3) Spark的五种JOIN策略解析 https://jiamaoxiang.top/2020/11/01/Spark%E7%9A%84%E4%BA%94%E7%A7%8DJOIN%E6%96%B9%E5%BC%8F%E8%A7%A3%E6%9E%90/

 4)hint语法

Spark SQL 查询中 Coalesce 和 Repartition 暗示(Hint)  https://www.iteblog.com/archives/2501.html

 

1.3 SparkStreaming

1.4 Pyspark

1.5 Structured Streaming

1.6 Graphx 

1.7 MLLib

 

3 性能调优

1、官方调优指南  https://spark.apache.org/docs/3.1.1/tuning.html

2、Spark性能优化指南——基础篇(美团团队)  https://tech.meituan.com/2016/04/29/spark-tuning-basic.html

3、Spark性能优化指南——高级篇(美团团队)https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

4 常见问题

1、数据倾斜 

Hive之数据倾斜原因及解决方法  http://blog.sina.com.cn/s/blog_7bbd4ce50102xer9.html3

Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势  http://www.jasongj.com/spark/skew/

Spark数据倾斜案例测试及调优准则深入剖析-Spark商业调优实战 https://blog.csdn.net/shenshouniu/article/details/83783067

 

posted @ 2021-04-28 19:56  七彩木兰  阅读(131)  评论(0编辑  收藏  举报