摘要: 一、简介 Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。 Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复与内存系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distribute DataSet,RDD)的AP 阅读全文
posted @ 2020-07-21 14:45 MXC肖某某 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1,定义 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 2,RDD的特点 RDD表示制度的分区的数据集,对RDD进行改动,只能通过RDD的 阅读全文
posted @ 2020-07-21 14:17 MXC肖某某 阅读(192) 评论(0) 推荐(0) 编辑