摘要: 1.血统机制 RDD只支持粗粒度转换,即只记录单个块上执行的单个操作。将创建RDD的一系列Lineage(即血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 RDD与RDD 阅读全文
posted @ 2020-04-06 16:28 mls12 阅读(634) 评论(0) 推荐(0) 编辑
摘要: RDD介绍 1.RDD概念以及特性 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个 阅读全文
posted @ 2020-03-22 20:53 mls12 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 什么是Spark? Spark官网:http://spark.apache.org Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态 阅读全文
posted @ 2020-02-26 17:40 mls12 阅读(348) 评论(0) 推荐(1) 编辑