摘要: RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他会生成Task,帮你计算你操作这个代理,就像操作本地集合一样,不用关心任务调度,容错等 RDD的属性 阅读全文
posted @ 2019-08-10 13:52 踩在浪花上 阅读(851) 评论(0) 推荐(0) 编辑