随笔分类 - Spark
摘要:目录 一、RDD 持久化介绍 二、RDD 持久化级别 三、持久化级别选择 四、删除持久化数据 五、RDD cache 和 persist 六、RDD checkpoint 七、DataSet cache 和 persist 一、RDD 持久化 因为 Spark 程序执行的特性,即延迟执行和基于 Li
阅读全文
摘要:一、问题背景 考虑到 Hadoop 3.0.0 的新特性 EC 码,HDFS 在存储数据时能获得很好的压缩比,同时 Hadoop 2.6.0 集群 HDFS 存储压力较大,我们将 Hadoop 2.6.0 集群的数据冷备到 Hadoop 3.0.0,来缓解 HDFS 存储的压力,但在冷备操作进行了一
阅读全文
摘要:一、背景介绍 用户在使用 Spark 提交任务时,经常会出现任务完成后在 HistoryServer(Spark 1.6 和 Spark 2.1 HistoryServer 合并,统一由 Spark 2.1 HistoryServer 管控,因此本文的代码分析都是基于 Spark 2.1 版本的代码
阅读全文
摘要:一、Spark 相关术语 Driver(通常用 SparkContext 代表 Drive):表示运行 Application的main() 函数,并创建 SparkContext。其中创建 SparkContext 的目的是为了准备 Spark 应用程序的运行环境。在 Spark 中由 Spark
阅读全文
摘要:一、Spark 内存介绍 在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种JVM进程。 Driver 程序主要负责: 创建 Spark上下文; 提交 Spark作业(Job)并将 Job 转化为计算任务(Task)交给 Executor 计算; 协调
阅读全文

浙公网安备 33010602011771号