2022 年 1月 24 日随笔档案 - 青竹之下

2022年1月24日

摘要：从计算的角度来讲，数据处理过程中需要计算资源（内存 & CPU）和计算模型（逻辑）。执行时，需要将计算资源和计算模型进行协调和整合。 Spark 框架在执行时，先申请资源，然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上, 按照指定的计算模型进行数据计阅读全文

posted @ 2022-01-24 21:55 青竹之下阅读(102) 评论(0) 推荐(0)

Spark 核心编程

摘要： Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： ➢ RDD : 弹性分布式数据集 ➢ 累加器：分布式共享只写变量 ➢ 广播变量：分布式共享只读变 RDD（Resilient Distributed Dataset）叫做弹性阅读全文

posted @ 2022-01-24 21:41 青竹之下阅读(44) 评论(0) 推荐(0)

huaobin

公告