摘要: 从计算的角度来讲,数据处理过程中需要计算资源(内存 & CPU)和计算模型(逻辑)。 执行时,需要将计算资源和计算模型进行协调和整合。 Spark 框架在执行时,先申请资源,然后将应用程序的数据处理逻辑分解成一个一个的 计算任务。然后将任务发到已经分配资源的计算节点上, 按照指定的计算模型进行数据计 阅读全文
posted @ 2022-01-24 21:55 青竹之下 阅读(94) 评论(0) 推荐(0)
摘要: Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于 处理不同的应用场景。三大数据结构分别是: ➢ RDD : 弹性分布式数据集 ➢ 累加器:分布式共享只写变量 ➢ 广播变量:分布式共享只读变 RDD(Resilient Distributed Dataset)叫做弹性 阅读全文
posted @ 2022-01-24 21:41 青竹之下 阅读(42) 评论(0) 推荐(0)