摘要: 概述 spark中的三大数据类型: RDD:分布式数据集 累加器:分布式只写变量,可以支持多个分区同时向该RDD写入数据,并将数据返回 广播变量:分布式只读变量 累加器 示例程序如下:系统通过引用一个外部的自由变量sum,将多个分区的数据累加到sum上。 def main(args: Array[S 阅读全文
posted @ 2020-02-28 09:50 盛夏群岛 阅读(425) 评论(0) 推荐(0)