摘要: 整个Spark框架都是基于RDD算子来进行计算的。What is RDD? Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象 表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构简单地,可以将RDD看成是S... 阅读全文
posted @ 2015-05-17 12:57 蒋源德 阅读(373) 评论(0) 推荐(1) 编辑