2019 年 6月 5 日随笔档案 - 安小

2019年6月5日

摘要：分区的意义 Spark RDD 是一种分布式的数据集，由于数据量很大，因此它被切分成不同分区并存储在各个Worker节点的内存中。从而当我们对RDD进行操作时，实际上是对每个分区中的数据并行操作。Spark根据字段进行partition类似于关系型数据库中的分区，可以加大并行度，提高执行效率。Spa 阅读全文

posted @ 2019-06-05 13:55 安小阅读(1596) 评论(0) 推荐(0)

公告