寒假学习 - 椰糖

1.1 Spark是什么

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。

Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing，

该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集（即 RDD）的概念。

翻译过来就是：RDD 是一种分布式内存抽象，其使得程序员能够在大规模集群中做内存运算，并且有一定的容错方式。而这也

是整个 Spark 的核心数据结构，Spark 整个平台都围绕着RDD进行。

1.1 Spark是什么

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。

简而言之，Spark 借鉴了 MapReduce 思想发展而来，保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提

高了运行速度、并提供丰富的操作数据的API提高了开发速度。

posted on 2024-01-10 23:39 椰糖阅读(9) 评论(0) 收藏举报

刷新页面返回顶部

yetang307