Ivan.Jiang - 博客园

2017年4月21日

摘要：一直想不明白什么是RDD，为什么叫RDD，RDD的第一个单词Resilient意义是什么？为什么这样设计RDD。短短的几百字，是在慢慢摸索过程中的一点理解，说说我对RDD中的R的理解。 RDD还包含了一个分布式的概念，后面再找时间来研究阅读全文

posted @ 2017-04-21 10:28 Ivan.Jiang 阅读(408) 评论(1) 推荐(0)

2016年10月29日

【杂谈】RDD-运行-2

摘要： RDD是每个分区独立执行，并行执行的，执行路径 Executor.launchTask() Task.runTask() RDD.iterator RDD.compute() or from checkpoin 有2种类型的Task, ShuffleMapTask 和 ResultTask。分别对应阅读全文

posted @ 2016-10-29 23:01 Ivan.Jiang 阅读(219) 评论(0) 推荐(0)

【杂谈】RDD-依赖

摘要： RDD的依赖构成了它的血统(linage) 叫族谱更容易理解有2种依赖关系：窄依赖和宽依赖构成窄依赖关系的RDD，每一个分区对应一个task(一个线程)，所有task可以并行运行；宽依赖关系的RDD，要等到父RDD所有分区计算结束后，进行Shuffle，然后才能开始计算。一个RDD可以依赖多阅读全文

posted @ 2016-10-29 22:42 Ivan.Jiang 阅读(263) 评论(0) 推荐(0)

[杂谈]Executor-1

摘要：为了让Task对象能够重用，在Executor中，每一个分区数据都会有一个Task去进行计算，计算完以后，就要释放taslk的内存，包括堆内和堆外内存，并且，要把Thread Local的内存也释放掉（TLA）。 org.apache.spark.scheduler.Task run() { try 阅读全文

posted @ 2016-10-29 22:01 Ivan.Jiang 阅读(170) 评论(0) 推荐(0)

2016年10月17日

[杂谈]Rdd运行-1

摘要：这个可能是DAG的魅力之一了。RDD的运行是懒执行的，DAG能够整合rdd的运行过程，让很多的操作集中在一个线程里运行连续执行，避免了磁盘和网络io 阅读全文

posted @ 2016-10-17 19:38 Ivan.Jiang 阅读(514) 评论(0) 推荐(0)

2016年10月16日

spark: ClosureCleaner.clean()

摘要： spark源码里面，使用得很多的一个方法 ClosureCleaner.clean() 阅读全文

posted @ 2016-10-16 18:09 Ivan.Jiang 阅读(1654) 评论(1) 推荐(0)

2016年9月19日

spark: 二次排序-2

摘要：使用自定义排序方法实现二次排序阅读全文