Spark 学习总结

摘要:

  1.spark_core

  2.spark_sql

  3.spark_ml

  4.spark streaming

内容:

1.spark_core

原理篇:  

  Spark RDD 核心总结

  RangePartitioner 实现简记  

  Spark核心作业调度和任务调度之DAGScheduler源码

  Spark 运行架构核心总结

  Spark DAGSheduler生成Stage过程分析实验

       Spark join 源码跟读记录

  图解spark的RDD编程模型 (收藏用)

实战篇:

  Spark算子选择策略

  Spark的持久化简记

  Spark读取HBase

  【转】Spark常见问题汇总

  Spark 开发中遇到的一些问题

调优篇:  

  Spark算子选择策略

  spark参数调优

  Spark Shuffle原理、Shuffle操作问题解决和参数调优 

2.spark_sql

  hive处理json

  sql分组排序取top n

  spark行转列

3.spark_ml

   Spark2 ML 学习札记

   http://www.cnblogs.com/yuguoshuo/tag/spark-mllib/

4.spark streaming

  Spark踩坑记——Spark Streaming+Kafka

  Spark Streaming 流计算优化记录(4)-时间都去哪儿了,关于调度与空转

   
posted @ 2017-06-23 17:51  混沌战神阿瑞斯  阅读(989)  评论(0编辑  收藏  举报