Spark RDD学习笔记
摘要:        
(resilient distributed dataset,RDD)是一个非常重要的分布式数据架构,即弹性分布式数据集。 它是逻辑集中的实体,在集群中的多台机器上进行了数据分 区。通过对多台机器上不同RDD分区的控制,就能够减少机器之间的数据重排(data shuffling)。Spark提供了“    阅读全文
        posted @ 2018-08-01 16:04 herman很慢 阅读(219) 评论(0) 推荐(0)
                    
                
浙公网安备 33010602011771号