会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
笨小康
「星辰大海,如期而至」
博客园
首页
管理
2021年3月10日
Yarn 日志聚合优化—摆脱 HDFS 依赖
摘要: 背景 (1)问题背景 线上集群 Container 日志上报的事务集群 namenode rpc 持续飙高,影响到了 Yarn 分配 Container 的性能,任务提交数下降,导致整个集群的吞吐量下降。 (2)原因简介 作业提交到 Yarn 集群时,每个 NM 节点都会对每个 app 作业进行日志
阅读全文
posted @ 2021-03-10 17:56 笨小康u
阅读(1676)
评论(0)
推荐(1)
2021年2月19日
Hive HMS Canary 时间较长异常分析
摘要: 一、现象及异常 测试up1集群: create database 操作 200s 多一点。 # sudo -u hive hive --hiveconf hive.metastore.uris=thrift://10.197.1.141:9084 hive> create database wgte
阅读全文
posted @ 2021-02-19 09:28 笨小康u
阅读(2895)
评论(1)
推荐(1)
2021年2月4日
Spark 持久化介绍(cache/persist/checkpoint)
摘要: 目录 一、RDD 持久化介绍 二、RDD 持久化级别 三、持久化级别选择 四、删除持久化数据 五、RDD cache 和 persist 六、RDD checkpoint 七、DataSet cache 和 persist 一、RDD 持久化 因为 Spark 程序执行的特性,即延迟执行和基于 Li
阅读全文
posted @ 2021-02-04 17:28 笨小康u
阅读(3115)
评论(0)
推荐(0)
2021年1月8日
Spark 扫描 HDFS lzo/gz/orc异常压缩文件
摘要: 一、问题背景 考虑到 Hadoop 3.0.0 的新特性 EC 码,HDFS 在存储数据时能获得很好的压缩比,同时 Hadoop 2.6.0 集群 HDFS 存储压力较大,我们将 Hadoop 2.6.0 集群的数据冷备到 Hadoop 3.0.0,来缓解 HDFS 存储的压力,但在冷备操作进行了一
阅读全文
posted @ 2021-01-08 16:11 笨小康u
阅读(1443)
评论(0)
推荐(0)
Yarn RM写ZNode超数据量限制bug修复
摘要: 问题背景 线上集群出现过几次 Yarn RM 写 ZK ZNode 的数据量超过 ZNode 限制,导致 RM 服务均进入 Standby 状态,用户无法正常提交任务,整个集群 hang 住,后续排查发现主要是异常任务写 ZNode 数据量太大,超过 ZNode 限制,导致集群其他提交作业的状态信息
阅读全文
posted @ 2021-01-08 11:22 笨小康u
阅读(1930)
评论(0)
推荐(0)
2020年10月30日
Spark HistoryServer日志解析&清理异常
摘要: 一、背景介绍 用户在使用 Spark 提交任务时,经常会出现任务完成后在 HistoryServer(Spark 1.6 和 Spark 2.1 HistoryServer 合并,统一由 Spark 2.1 HistoryServer 管控,因此本文的代码分析都是基于 Spark 2.1 版本的代码
阅读全文
posted @ 2020-10-30 11:26 笨小康u
阅读(4345)
评论(0)
推荐(0)
【Yarn源码分析】Container启动流程源码分析
摘要: 在 《ApplicationMaster启动及资源申请源码分析》中,AM 向 RM 注册后,会周期性地通过 RPC 函数 ApplicationMaster#allocate() 与 RM 通信,通信目的包括请求资源、获取新分配的资源及形成周期性心跳,本文中我们重点看看 AM 向 RM 申请到 Co
阅读全文
posted @ 2020-10-30 11:00 笨小康u
阅读(2576)
评论(0)
推荐(0)
2020年9月2日
Yarn NodeManager总体架构
摘要: NodeManager(NM)是 Yarn 中单个节点上的代理,它管理 Hadoop 集群中单个计算节点,功能包括与 ResourceManager 保持通信、管理 Container 的生命周期、监控每个 Container 的资源使用情况、追踪节点健康状况、管理日志和不同应用程序用到的附属服务(
阅读全文
posted @ 2020-09-02 21:25 笨小康u
阅读(1233)
评论(0)
推荐(0)
2020年8月26日
【Yarn源码分析】ApplicationMaster源码分析
摘要: 本文主要介绍 ApplicationMaster 的运行流程,并从 ApplicationMaster 的启动、注册/心跳、Container 资源申请与分配三个角度分析相关源码。其中花了大量篇幅介绍 ApplicationMaster 的启动过程,包括任务提交流程、App/Attempt 转换过程
阅读全文
posted @ 2020-08-26 17:29 笨小康u
阅读(2891)
评论(0)
推荐(1)
【Yarn源码分析】FairScheduler资源调度
摘要: 一、Yarn 资源调度方式 资源调度方式确定了当任务提交到集群,如何为其分配资源执行任务。在 FairScheduler 中提供了两种资源调度方式:心跳调度和连续调度。 心跳调度方式:NodeManager 向 ResourceManager 汇报了自身资源情况(比如,当前可用资源,正在使用的资源,
阅读全文
posted @ 2020-08-26 17:04 笨小康u
阅读(2484)
评论(0)
推荐(0)
下一页