Spark - 随笔分类 - 笨小康u

Spark 持久化介绍（cache/persist/checkpoint）

摘要：目录一、RDD 持久化介绍二、RDD 持久化级别三、持久化级别选择四、删除持久化数据五、RDD cache 和 persist 六、RDD checkpoint 七、DataSet cache 和 persist 一、RDD 持久化因为 Spark 程序执行的特性，即延迟执行和基于 Li 阅读全文

posted @ 2021-02-04 17:28 笨小康u 阅读(3176) 评论(0) 推荐(0)

Spark 扫描 HDFS lzo/gz/orc异常压缩文件

摘要：一、问题背景考虑到 Hadoop 3.0.0 的新特性 EC 码，HDFS 在存储数据时能获得很好的压缩比，同时 Hadoop 2.6.0 集群 HDFS 存储压力较大，我们将 Hadoop 2.6.0 集群的数据冷备到 Hadoop 3.0.0，来缓解 HDFS 存储的压力，但在冷备操作进行了一阅读全文

posted @ 2021-01-08 16:11 笨小康u 阅读(1488) 评论(0) 推荐(0)

Spark HistoryServer日志解析&清理异常

摘要：一、背景介绍用户在使用 Spark 提交任务时，经常会出现任务完成后在 HistoryServer（Spark 1.6 和 Spark 2.1 HistoryServer 合并，统一由 Spark 2.1 HistoryServer 管控，因此本文的代码分析都是基于 Spark 2.1 版本的代码阅读全文

posted @ 2020-10-30 11:26 笨小康u 阅读(4460) 评论(0) 推荐(0)

Spark on Yarn运行机制

摘要：一、Spark 相关术语 Driver（通常用 SparkContext 代表 Drive）：表示运行 Application的main() 函数，并创建 SparkContext。其中创建 SparkContext 的目的是为了准备 Spark 应用程序的运行环境。在 Spark 中由 Spark 阅读全文

posted @ 2020-08-21 11:43 笨小康u 阅读(980) 评论(0) 推荐(0)

Spark 内存管理模型详解

摘要：一、Spark 内存介绍在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种JVM进程。 Driver 程序主要负责：创建 Spark上下文；提交 Spark作业（Job）并将 Job 转化为计算任务（Task）交给 Executor 计算；协调阅读全文

posted @ 2020-08-04 15:27 笨小康u 阅读(3845) 评论(1) 推荐(0)

笨小康

「星辰大海，如期而至」

随笔分类 - Spark