yuan-er

导航

 

ALM-5101756 Ops巡检-用户库慢SQL数量异常

告警解释

此告警对应指标“用户库慢SQL数量”超出配置阈值,此指标反映数据库中慢SQL的数量。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5101756

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

类别

参数名称

参数含义

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

慢SQL数量增加,SQL执行变慢,影响业务接口时延和成功率。

可能原因

  • 底层故障。
  • 计划不优。
  • 并发锁冲突。
  • 大量死元组。

处理步骤

  1. 收到告警后,通过查看监控指标查看指标“用户库慢SQL数量”,确认指标情况以及触发告警的节点。
  2. 查看触发告警的节点的慢SQL语句和出现次数。

     

    • 如果是单个语句慢SQL数量很多,且和其他语句慢SQL数量差距在两个数量级。
      • 通过查看监控指标,同时查看监控上的此指标和“80% SQL的响应时间”指标的波动情况。
        • 如果“80% SQL的响应时间”有明显增加,执行3
        • 如果“80% SQL的响应时间”指标无明显变化,执行6
    • 如果是所有语句慢SQL数量差别不大,几乎没有跨数量级,执行3
    NOTICE:

    数量级的差即它们相差的10的倍数。如果数字相差一个数量级,则 x 的数量大约是 y 的十倍。 如果值相差两个数量级,则它们相差约 100 倍。

     

  3. 通过查看监控指标查看“80% SQL的响应时间”的指标波动情况,判断指标是陡增还是缓慢增长。

     

    • 如果是陡增,执行 4
    • 如果是缓慢增长,执行5

     

  4. 通过查看监控指标查看“Data Manipulation Language/s”的指标波动情况指标。

     

    • 如果两个指标同时上涨,则表示业务请求量上涨导致,考虑联系客户进行限流。
    • 如果“Data Manipulation Language/s”指标没有上涨,继续查看,执行5

     

  5. 判断开始增长的时间点,是否存在数据库变更或业务侧变更操作。

     

    • 如果存在变更,当前告警的根因基本上同变更有关,分析当前变更的影响以及业务的实际影响。
      • 如果是业务影响不可控或无法分析,建议回退变更,变更如果无法回退,可继续执行6
      • 如果业务影响可控,可以考虑继续分析,执行6
    • 如果没有变更,通过查找引起SQL性能劣化的故障节点排查节点底层是否存在故障告警。
      • 存在故障
        • 如果在陡增的时间点周围,故障告警自动恢复,并且当前告警指标已恢复正常,则可确定为底层故障导致的问题。
        • 如果底层故障未恢复或指标长时间未回落,考虑对故障节点做隔离。
      • 不存在底层故障,继续执行 6

     

  6. 具体方法请参考《云数据库 GaussDB 24.1.30 维护指南(for 华为云Stack 8.3.1)》中的故障管理 > 故障处理 > 数据库故障定位方法 > 性能类问题 > 整体性能慢分析章节。
  7. 如无法解决,请联系技术支持

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

 
posted on 2024-10-28 10:51  数据库笔记  阅读(2)  评论(0)    收藏  举报