随笔档案「2020年3月」 - 顿学累功

Spark 共享变量之——Accumulator（累加器）

摘要：一、简介为了方便的统计和管理一些共同信息，Spark中定义了两种共享变量——Broadcast（广播变量）和 Accumulator（累加器），可以方便的把一些变量或数据共享给集群各个节点，今天来看看Accumulator。 Accumulator是由Driver端总体维护的，读取当前值也是在Dr 阅读全文

posted @ 2020-03-31 17:46 顿学累功阅读(1387) 评论(0) 推荐(0)

AccumulatorV2不生效的问题排查

摘要：在Spark作业中使用AccumulatorV2自定义了一个字符串累加器，但是累加器在作业执行中不生效。问题可能原因： 1、累加器本身定义的有问题； 2、Spark作业执行流程的原因；问题排查情况： 1、通过一个自定义累加器类单测，只能证明了累加器自身类定义的正确性，但还不能证明累加器进入Spa 阅读全文

posted @ 2020-03-31 16:27 顿学累功阅读(296) 评论(0) 推荐(0)

RDD的Cache、Persist、Checkpoint的区别和StorageLevel存储级别划分

摘要：为了增强容错性和高可用，避免上游RDD被重复计算的大量时间开销，Spark RDD设计了包含多种存储级别的缓存和持久化机制，主要有三个概念：Cache、Persist、Checkout。 1、存储级别介绍（StorageLevel）存储级别以一个枚举类StorageLevel定义，分为以下12种：阅读全文

posted @ 2020-03-30 12:32 顿学累功阅读(1024) 评论(0) 推荐(0)

2、Spark Core职责之初始化（1）——SparkContext

摘要：SparkContext（Spark上下文） /** * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark * cluster, and can be used 阅读全文

posted @ 2020-03-24 12:55 顿学累功阅读(307) 评论(0) 推荐(0)

1、Spark Core所处位置和主要职责

摘要：Spark组件是基于分布式资源引擎层（Yarn等）和分布式存储层（HDFS等）之上的一个组件，Spark本质上是一个计算引擎，负责计算的，根据不同计算场景划分出了SQL、Streaming、MLib、GraphX、R等模块，这些模块各自处理适合各自特点的计算场景。Spark Core作为Spark技阅读全文

posted @ 2020-03-24 11:06 顿学累功阅读(260) 评论(0) 推荐(0)

Spark作业提交至Yarn上执行的一个异常

摘要：（1）控制台Yarn（Cluster模式）打印的异常日志： client token: N/A diagnostics: Application application_1584359355781_0002 failed 2 times due to AM Container for appatte 阅读全文

posted @ 2020-03-16 19:52 顿学累功阅读(2949) 评论(0) 推荐(0)

顿学累功

03 2020 档案

公告