摘要: 背景 (1)问题背景 线上集群 Container 日志上报的事务集群 namenode rpc 持续飙高,影响到了 Yarn 分配 Container 的性能,任务提交数下降,导致整个集群的吞吐量下降。 (2)原因简介 作业提交到 Yarn 集群时,每个 NM 节点都会对每个 app 作业进行日志 阅读全文
posted @ 2021-03-10 17:56 笨小康u 阅读(1281) 评论(0) 推荐(0) 编辑
摘要: 一、现象及异常 测试up1集群: create database 操作 200s 多一点。 # sudo -u hive hive --hiveconf hive.metastore.uris=thrift://10.197.1.141:9084 hive> create database wgte 阅读全文
posted @ 2021-02-19 09:28 笨小康u 阅读(2365) 评论(0) 推荐(0) 编辑
摘要: 目录 一、RDD 持久化介绍 二、RDD 持久化级别 三、持久化级别选择 四、删除持久化数据 五、RDD cache 和 persist 六、RDD checkpoint 七、DataSet cache 和 persist 一、RDD 持久化 因为 Spark 程序执行的特性,即延迟执行和基于 Li 阅读全文
posted @ 2021-02-04 17:28 笨小康u 阅读(1878) 评论(0) 推荐(0) 编辑
摘要: 一、问题背景 考虑到 Hadoop 3.0.0 的新特性 EC 码,HDFS 在存储数据时能获得很好的压缩比,同时 Hadoop 2.6.0 集群 HDFS 存储压力较大,我们将 Hadoop 2.6.0 集群的数据冷备到 Hadoop 3.0.0,来缓解 HDFS 存储的压力,但在冷备操作进行了一 阅读全文
posted @ 2021-01-08 16:11 笨小康u 阅读(1166) 评论(0) 推荐(0) 编辑
摘要: 问题背景 线上集群出现过几次 Yarn RM 写 ZK ZNode 的数据量超过 ZNode 限制,导致 RM 服务均进入 Standby 状态,用户无法正常提交任务,整个集群 hang 住,后续排查发现主要是异常任务写 ZNode 数据量太大,超过 ZNode 限制,导致集群其他提交作业的状态信息 阅读全文
posted @ 2021-01-08 11:22 笨小康u 阅读(1575) 评论(0) 推荐(0) 编辑
摘要: 一、背景介绍 用户在使用 Spark 提交任务时,经常会出现任务完成后在 HistoryServer(Spark 1.6 和 Spark 2.1 HistoryServer 合并,统一由 Spark 2.1 HistoryServer 管控,因此本文的代码分析都是基于 Spark 2.1 版本的代码 阅读全文
posted @ 2020-10-30 11:26 笨小康u 阅读(3203) 评论(0) 推荐(0) 编辑
摘要: 在 《ApplicationMaster启动及资源申请源码分析》中,AM 向 RM 注册后,会周期性地通过 RPC 函数 ApplicationMaster#allocate() 与 RM 通信,通信目的包括请求资源、获取新分配的资源及形成周期性心跳,本文中我们重点看看 AM 向 RM 申请到 Co 阅读全文
posted @ 2020-10-30 11:00 笨小康u 阅读(2095) 评论(0) 推荐(0) 编辑
摘要: NodeManager(NM)是 Yarn 中单个节点上的代理,它管理 Hadoop 集群中单个计算节点,功能包括与 ResourceManager 保持通信、管理 Container 的生命周期、监控每个 Container 的资源使用情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务( 阅读全文
posted @ 2020-09-02 21:25 笨小康u 阅读(971) 评论(0) 推荐(0) 编辑
摘要: 本文主要介绍 ApplicationMaster 的运行流程,并从 ApplicationMaster 的启动、注册/心跳、Container 资源申请与分配三个角度分析相关源码。其中花了大量篇幅介绍 ApplicationMaster 的启动过程,包括任务提交流程、App/Attempt 转换过程 阅读全文
posted @ 2020-08-26 17:29 笨小康u 阅读(2352) 评论(0) 推荐(1) 编辑
摘要: 一、Yarn 资源调度方式 资源调度方式确定了当任务提交到集群,如何为其分配资源执行任务。在 FairScheduler 中提供了两种资源调度方式:心跳调度和连续调度。 心跳调度方式:NodeManager 向 ResourceManager 汇报了自身资源情况(比如,当前可用资源,正在使用的资源, 阅读全文
posted @ 2020-08-26 17:04 笨小康u 阅读(1974) 评论(0) 推荐(0) 编辑