摘要: RDD的分区是什么? RDD,顾名思义它是分布式的,那么它是怎么实现分布式呢?答案就是分区,也即是一个RDD会将计算逻辑分布在整个集群中。这很像kafka中的topic的分区,通过水平扩展的方式提供系统的吞吐量。 那么分区是如何分布在整个集群中呢?我们拿hdfs举例,假设hdfs上有一个文件A,大小 阅读全文
posted @ 2021-06-11 13:55 ralgo 阅读(110) 评论(0) 推荐(0)