yuan-er

导航

 

ALM-5101156 Ops巡检-主机流控时间异常

告警解释

此告警对应指标“主机流控时间”超出配置阈值,此指标反映为了达到recovery_time_target参数配置的RTO,主DN所需要睡眠的时间,单位us。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5101156

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

类别

参数名称

参数含义

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

此指标大于0,说明有流控产生,流控期间,影响主DN事务提交,延长语句执行时间,业务性能下降。

可能原因

业务压力过大,使得备DN的xlog回放速度跟不上主DN产生的速度,不满足RTO要求。

处理步骤

  1. 收到告警后,首先通过查看监控指标查看指标主机流控时间,确认指标情况以及触发告警的组件。
  2. 确认指标是否已归0,如果已归0,风险可控,持续观察是否仍会上涨。

     

    如果未归0,执行3

     

  3. 参考查看监控指标,查看指标“Data Manipulation Language/s”、“80% SQL的响应时间”、“95% SQL的响应时间”、“线程池使用率”确认这些指标是否同时波动或告警。

     

    • 如果这些指标无明显波动,风险可控,持续观察指标是否会波动,并联系客户咨询,业务压力是否变化及需要持续的时间,决策是否需要执行4,防止影响业务性能。
    • 如果已出现“Data Manipulation Language/s”下降,“80% SQL的响应时间”、“95% SQL的响应时间”、“线程池使用率”上涨,那说明已触发流控且影响业务性能,执行4

     

  4. 参考修改实例参数调整参数recovery_time_target为0,关闭流控紧急规避。

     

    等待业务和此指标恢复之后,确认recovery_time_target参数是否调回原值,保证RTO。

     

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

posted on 2024-10-21 19:21  数据库笔记  阅读(19)  评论(0)    收藏  举报