会员
周边
新闻
博问
融资
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
安小
博客园
首页
新随笔
联系
订阅
管理
2019年6月5日
Spark Partition
摘要: 分区的意义 Spark RDD 是一种分布式的数据集,由于数据量很大,因此它被切分成不同分区并存储在各个Worker节点的内存中。从而当我们对RDD进行操作时,实际上是对每个分区中的数据并行操作。Spark根据字段进行partition类似于关系型数据库中的分区,可以加大并行度,提高执行效率。Spa
阅读全文
posted @ 2019-06-05 13:55 安小
阅读(1408)
评论(0)
推荐(0)
编辑
公告