会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
meng12
博客园
首页
新随笔
联系
订阅
管理
2020年4月6日
RDD的三个机制
摘要: 1.血统机制 RDD只支持粗粒度转换,即只记录单个块上执行的单个操作。将创建RDD的一系列Lineage(即血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 RDD与RDD
阅读全文
posted @ 2020-04-06 16:28 mls12
阅读(846)
评论(0)
推荐(0)
2020年3月22日
spark计算模型RDD
摘要: RDD介绍 1.RDD概念以及特性 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个
阅读全文
posted @ 2020-03-22 20:53 mls12
阅读(452)
评论(0)
推荐(0)
2020年2月26日
什么是spark?
摘要: 什么是Spark? Spark官网:http://spark.apache.org Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态
阅读全文
posted @ 2020-02-26 17:40 mls12
阅读(389)
评论(0)
推荐(1)
公告