会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
小小
博客园
首页
新随笔
联系
管理
订阅
2017年4月21日
[杂谈]重新认识RDD
摘要: 一直想不明白什么是RDD,为什么叫RDD,RDD的第一个单词Resilient意义是什么?为什么这样设计RDD。 短短的几百字,是在慢慢摸索过程中的一点理解,说说我对RDD中的R的理解。 RDD还包含了一个分布式的概念,后面再找时间来研究
阅读全文
posted @ 2017-04-21 10:28 Ivan.Jiang
阅读(397)
评论(1)
推荐(0)
2016年10月29日
【杂谈】RDD-运行-2
摘要: RDD是每个分区独立执行,并行执行的,执行路径 Executor.launchTask() Task.runTask() RDD.iterator RDD.compute() or from checkpoin 有2种类型的Task, ShuffleMapTask 和 ResultTask。分别对应
阅读全文
posted @ 2016-10-29 23:01 Ivan.Jiang
阅读(212)
评论(0)
推荐(0)
【杂谈】RDD-依赖
摘要: RDD的依赖构成了它的血统(linage) 叫族谱更容易理解 有2种依赖关系:窄依赖和宽依赖 构成窄依赖关系的RDD,每一个分区对应一个task(一个线程),所有task可以并行运行; 宽依赖关系的RDD,要等到父RDD所有分区计算结束后,进行Shuffle,然后才能开始计算。 一个RDD可以依赖多
阅读全文
posted @ 2016-10-29 22:42 Ivan.Jiang
阅读(250)
评论(0)
推荐(0)
[杂谈]Executor-1
摘要: 为了让Task对象能够重用,在Executor中,每一个分区数据都会有一个Task去进行计算,计算完以后,就要释放taslk的内存,包括堆内和堆外内存,并且,要把Thread Local的内存也释放掉(TLA)。 org.apache.spark.scheduler.Task run() { try
阅读全文
posted @ 2016-10-29 22:01 Ivan.Jiang
阅读(162)
评论(0)
推荐(0)
2016年10月17日
[杂谈]Rdd运行-1
摘要: 这个可能是DAG的魅力之一了。RDD的运行是懒执行的,DAG能够整合rdd的运行过程,让很多的操作集中在一个线程里运行连续执行,避免了磁盘和网络io
阅读全文
posted @ 2016-10-17 19:38 Ivan.Jiang
阅读(505)
评论(0)
推荐(0)
2016年10月16日
spark: ClosureCleaner.clean()
摘要: spark源码里面,使用得很多的一个方法 ClosureCleaner.clean()
阅读全文
posted @ 2016-10-16 18:09 Ivan.Jiang
阅读(1639)
评论(1)
推荐(0)
2016年9月19日
spark: 二次排序-2
摘要: 使用自定义排序方法实现二次排序
阅读全文
posted @ 2016-09-19 16:51 Ivan.Jiang
阅读(2211)
评论(0)
推荐(0)
spark: 二次排序-1
摘要: spark进行二次排序,这里使用一种错误的做法,导致2个问题: 1, 按照复合key的字典排序结果并非我们所期望 2, 复合key的做法,使rdd的dize增加了1倍
阅读全文
posted @ 2016-09-19 15:31 Ivan.Jiang
阅读(664)
评论(0)
推荐(0)
2016年9月18日
spark编译出错:bad symbolic reference. A signature in Utils.class refers to term concurrent in value com.google.common.util which is not available.
摘要: spark编译出错, kafka缺少guava依赖
阅读全文
posted @ 2016-09-18 00:50 Ivan.Jiang
阅读(2522)
评论(0)
推荐(0)
2016年8月26日
WordCount: 基于kafka+storm+hbase
摘要: kafka -> storm -> hbase,完成wordcount的计算
阅读全文
posted @ 2016-08-26 10:55 Ivan.Jiang
阅读(3118)
评论(1)
推荐(1)
下一页
公告