2020 年 2月 28 日随笔档案 - 盛夏群岛

2020年2月28日

摘要：概述 spark中的三大数据类型： RDD：分布式数据集累加器：分布式只写变量，可以支持多个分区同时向该RDD写入数据，并将数据返回广播变量：分布式只读变量累加器示例程序如下：系统通过引用一个外部的自由变量sum，将多个分区的数据累加到sum上。 def main(args: Array[S 阅读全文

posted @ 2020-02-28 09:50 盛夏群岛阅读(427) 评论(0) 推荐(0)

盛夏群岛

公告