随笔分类 - Spark Core运行原理剖析
摘要:一、简介 为了方便的统计和管理一些共同信息,Spark中定义了两种共享变量——Broadcast(广播变量)和 Accumulator(累加器),可以方便的把一些变量或数据共享给集群各个节点,今天来看看Accumulator。 Accumulator是由Driver端总体维护的,读取当前值也是在Dr
阅读全文
摘要:为了增强容错性和高可用,避免上游RDD被重复计算的大量时间开销,Spark RDD设计了包含多种存储级别的缓存和持久化机制,主要有三个概念:Cache、Persist、Checkout。 1、存储级别介绍(StorageLevel) 存储级别以一个枚举类StorageLevel定义,分为以下12种:
阅读全文
摘要:SparkContext(Spark上下文) /** * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark * cluster, and can be used
阅读全文
摘要:Spark组件是基于分布式资源引擎层(Yarn等)和分布式存储层(HDFS等)之上的一个组件,Spark本质上是一个计算引擎,负责计算的,根据不同计算场景划分出了SQL、Streaming、MLib、GraphX、R等模块,这些模块各自处理适合各自特点的计算场景。Spark Core作为Spark技
阅读全文

浙公网安备 33010602011771号