ALM-5101338 Ops巡检-xlog速率异常
告警解释
此告警对应指标“xlog速率”超出配置阈值,此指标反映数据库中每秒产生的xlog的量。
告警属性
|
告警ID |
告警级别 |
告警类型 |
告警归属 |
业务类型 |
是否可自动清除 |
|---|---|---|---|---|---|
|
5101338 |
巡检配置 |
业务质量告警 |
租户面 |
云数据库 GaussDB 节点 |
是 |
告警参数
|
类别 |
参数名称 |
参数含义 |
|---|---|---|
|
定位信息 |
云服务 |
产生告警的云服务 |
|
实例ID |
产生告警的实例ID |
|
|
节点ID |
产生告警的节点ID |
|
|
巡检名称 |
产生告警的巡检名称 |
|
|
指标编码 |
产生告警的指标编码 |
|
|
附加信息 |
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
租户ID |
产生告警的租户ID |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
|
|
节点角色 |
产生告警节点的节点角色 |
|
|
指标编码 |
产生告警节点的指标编码 |
|
|
指标采集值 |
产生告警节点的指标采集值 |
|
|
指标阈值 |
产生告警节点的指标阈值 |
对系统的影响
此指标需要联动“备机redo进度,和主机的差距”指标同步分析。
- 如果“备机redo进度,和主机的差距”指标没有异常,此指标上涨对系统无影响。
- 如果“备机redo进度,和主机的差距”同步上涨,会影响RTO时间,可能会在故障情况下,备DN无法在RTO时间范围内升主。
可能原因
存在大量写操作。
处理步骤
- 收到告警后,首先通过查看监控指标查看指标“xlog速率”,确认指标情况以及触发告警的组件。
- 联动“备机redo进度,和主机的差距”指标同步分析。
如果“备机redo进度,和主机的差距”指标没有异常,此指标上涨对系统无影响,持续观察。
否则执行3。
- 如果“备机redo进度,和主机的差距”同步上涨,执行如下语句,确认是否有vacuum操作正在执行:
- 主备式:
SELECT * FROM pg_stat_activity WHERE query ILIKE '%vacuum%' AND state = 'active' AND query NOT ILIKE '%pg_stat_activity%'; - 分布式:
SELECT * FROM pgxc_stat_activity WHERE query ILIKE '%vacuum%' AND state = 'active' AND query NOT ILIKe '%pgxc_stat_activity%';
- 如果有查询结果,说明有vacuum操作,持续观察,等待vacuum完成即可。
- 如果无查询结果,说明没有vacuum操作,执行4。
- 主备式:
- 通过WDR报告确认上涨时间段和正常时间段之间,写操作业务量的差异。
如果上涨时间段比正常时间段的写操作业务量大很多,需进行限流操作。
WDR报告使用具体请参考《云数据库 GaussDB 24.1.30 使用指南 (for 华为云Stack 8.3.1)》中的“用户指南 > 操作指南 > 智能运维 > 诊断优化 > 性能报告”章节。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
浙公网安备 33010602011771号