yuan-er

导航

 

ALM-5101338 Ops巡检-xlog速率异常

告警解释

此告警对应指标“xlog速率”超出配置阈值,此指标反映数据库中每秒产生的xlog的量。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5101338

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

类别

参数名称

参数含义

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

此指标需要联动“备机redo进度,和主机的差距”指标同步分析。

  • 如果“备机redo进度,和主机的差距”指标没有异常,此指标上涨对系统无影响。
  • 如果“备机redo进度,和主机的差距”同步上涨,会影响RTO时间,可能会在故障情况下,备DN无法在RTO时间范围内升主。

可能原因

存在大量写操作。

处理步骤

  1. 收到告警后,首先通过查看监控指标查看指标“xlog速率”,确认指标情况以及触发告警的组件。
  2. 联动“备机redo进度,和主机的差距”指标同步分析。

     

    如果“备机redo进度,和主机的差距”指标没有异常,此指标上涨对系统无影响,持续观察。

    否则执行3

     

  3. 如果“备机redo进度,和主机的差距”同步上涨,执行如下语句,确认是否有vacuum操作正在执行:

     

    • 主备式:
      SELECT * FROM pg_stat_activity WHERE query ILIKE '%vacuum%' AND state = 'active' AND query NOT ILIKE '%pg_stat_activity%';
       
       
      
      
    • 分布式:
      SELECT * FROM pgxc_stat_activity WHERE query ILIKE '%vacuum%' AND state = 'active' AND query NOT ILIKe '%pgxc_stat_activity%';
       
       
      
      
    • 如果有查询结果,说明有vacuum操作,持续观察,等待vacuum完成即可。
    • 如果无查询结果,说明没有vacuum操作,执行4

     

  4. 通过WDR报告确认上涨时间段和正常时间段之间,写操作业务量的差异。

     

    如果上涨时间段比正常时间段的写操作业务量大很多,需进行限流操作。

    WDR报告使用具体请参考《云数据库 GaussDB 24.1.30 使用指南 (for 华为云Stack 8.3.1)》中的“用户指南 > 操作指南 > 智能运维 > 诊断优化 > 性能报告”章节。

     

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

posted on 2024-10-23 15:14  数据库笔记  阅读(22)  评论(0)    收藏  举报