摘要: RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 RDD内部可以有许多分区(partitions),每个分区又拥有大量的记录(records)。 五个特征: dep 阅读全文
posted @ 2017-12-04 15:35 ^_TONY_^ 阅读(19122) 评论(0) 推荐(2) 编辑