Spark 源码分析系列

如下,是 spark 相关系列的一些文章汇总,持续更新中......

Spark RPC

spark 源码分析之五--Spark RPC剖析之创建NettyRpcEnv

spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析

spark 源码分析之七--Spark RPC剖析之RpcEndPoint和RpcEndPointRef剖析

spark 源码分析之八--Spark RPC剖析之TransportContext和TransportClientFactory剖析

spark 源码分析之十--Spark RPC剖析之TransportResponseHandler、TransportRequestHandler和TransportChannelHandler剖析

spark 源码分析之九--Spark RPC剖析之StreamManager和RpcHandler

spark 源码分析之十一--Spark RPC剖析之TransportClient、TransportServer剖析

spark 源码分析之十二--Spark RPC剖析之Spark RPC总结

Spark 存储

spark 源码分析之十三 -- SerializerManager剖析

spark 源码分析之十四 -- broadcast 是如何实现的?

spark 源码分析之十五 -- Spark内存管理剖析

spark 源码分析之十六 -- Spark内存存储剖析

spark 源码分析之十七 -- Spark磁盘存储剖析

spark 源码分析之十八 -- Spark存储体系剖析

Spark Streaming

spark streaming 接收kafka消息之一 -- 两种接收方式

spark streaming 接收kafka消息之二 -- 运行在driver端的receiver

spark streaming 接收kafka消息之三 -- kafka broker 如何处理 fetch 请求

spark streaming 接收kafka消息之四 -- 运行在 worker 上的 receiver

spark streaming 接收kafka消息之五 -- spark streaming 和 kafka 的对接总结

Spark 任务调度

spark 源码分析之一 -- RDD的四种依赖关系

spark 源码分析之二 -- SparkContext 的初始化过程

spark 源码分析之三 -- LiveListenerBus介绍

spark 源码分析之四 -- TaskScheduler的创建和启动过程

spark 源码分析之十九 -- DAG的生成和Stage的划分

spark 源码分析之二十 -- Stage的提交

spark 源码分析之二十一 -- Task的执行流程 

Spark任务计算

spark 源码分析之二十二-- Task的内存管理

spark shuffle的写操作之准备工作

spark shuffle写操作三部曲之BypassMergeSortShuffleWriter

spark shuffle写操作三部曲之UnsafeShuffleWriter

spark shuffle写操作三部曲之SortShuffleWriter

spark shuffle读操作 

Spark SQL

spark sql 执行计划生成案例

如何查看SparkSQL 生成的抽象语法树?

Spark SQL 之自定义删除外部表

spark sql 自定义之 thriftserver 高可用

spark sql 之drop partition定制

其他

修改Apache Livy 源码使其支持动态资源分配和堆外内存分配

spark 集群优化

posted @ 2019-07-28 16:58  JohnnyBai  阅读(2378)  评论(0编辑  收藏