摘要: 在Spark集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed DataSet,RDD),它是逻辑集中的实体,在集群中的多台集群上进行数据分区。通过对多台机器上不同RDD分区的控制,能够减少机器之间的数据重排(Data Shuffle)。Spa... 阅读全文
posted @ 2015-09-14 00:02 孟尧 阅读(865) 评论(0) 推荐(0)