Spark Core运行原理剖析 - 随笔分类 - 顿学累功

Spark 共享变量之——Accumulator（累加器）

摘要：一、简介为了方便的统计和管理一些共同信息，Spark中定义了两种共享变量——Broadcast（广播变量）和 Accumulator（累加器），可以方便的把一些变量或数据共享给集群各个节点，今天来看看Accumulator。 Accumulator是由Driver端总体维护的，读取当前值也是在Dr 阅读全文

posted @ 2020-03-31 17:46 顿学累功阅读(1393) 评论(0) 推荐(0)

RDD的Cache、Persist、Checkpoint的区别和StorageLevel存储级别划分

摘要：为了增强容错性和高可用，避免上游RDD被重复计算的大量时间开销，Spark RDD设计了包含多种存储级别的缓存和持久化机制，主要有三个概念：Cache、Persist、Checkout。 1、存储级别介绍（StorageLevel）存储级别以一个枚举类StorageLevel定义，分为以下12种：阅读全文

posted @ 2020-03-30 12:32 顿学累功阅读(1025) 评论(0) 推荐(0)

2、Spark Core职责之初始化（1）——SparkContext

摘要：SparkContext（Spark上下文） /** * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark * cluster, and can be used 阅读全文

posted @ 2020-03-24 12:55 顿学累功阅读(312) 评论(0) 推荐(0)

1、Spark Core所处位置和主要职责

摘要：Spark组件是基于分布式资源引擎层（Yarn等）和分布式存储层（HDFS等）之上的一个组件，Spark本质上是一个计算引擎，负责计算的，根据不同计算场景划分出了SQL、Streaming、MLib、GraphX、R等模块，这些模块各自处理适合各自特点的计算场景。Spark Core作为Spark技阅读全文

posted @ 2020-03-24 11:06 顿学累功阅读(261) 评论(0) 推荐(0)

顿学累功

随笔分类 - Spark Core运行原理剖析

公告