摘要:
url:Spark介绍系列03--RDD 一.RDD的依赖关系 RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。 1.窄依赖 上图左侧是父级 窄依赖指的是每一个父RDD的Partition最多被子RDD的 阅读全文
posted @ 2018-04-01 11:26
Dlimeng
阅读(16)
评论(0)
推荐(0)
摘要:
有些基础用法就不详细介绍,有疑问的伙伴互相交流。 一.RDD的介绍 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩 阅读全文
posted @ 2018-04-01 10:56
Dlimeng
阅读(8)
评论(0)
推荐(0)
摘要:
有些基础用法就不详细介绍,有疑问的伙伴互相交流。 一.RDD的介绍 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩 阅读全文
posted @ 2018-04-01 10:56
Dlimeng
阅读(8)
评论(0)
推荐(0)