yuan-er

导航

 

ALM-5101170 Ops巡检-用户回滚的事务数异常

告警解释

此指标反映用户执行的事务每秒回滚的数量,反映用户业务执行失败的情况。对应指标“用户回滚的事务数”超出配置阈值,产生告警。

告警属性

5101170

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

指标较高时,表示用户执行的事务失败数量多,业务执行异常,严重时会导致业务的成功率下降。

可能原因

  • 业务正常行为。
  • 出现故障。
  • 业务语句执行报错。

处理步骤

  1. 收到告警后,通过查看监控指标查看指标“用户回滚的事务数”,确认指标情况以及确认触发告警的节点以及组件。
  2. 同步查看指标“Data Manipulation Language/s”、“80% SQL的响应时间”、“95% SQL的响应时间”和“线程池使用率”等指标是否波动或告警。如果有指标波动或告警,参考对应指标的异常处理方式。
  3. 同步排查告警组件所在节点底层是否有故障告警。获取 查看虚拟机资源ID,联系IAAS技术人员排查是否有底层故障告警。
    • 有,按照底层故障处理方法处理。
    • 无,查看告警组件的内核日志,确认是否有报错,执行以下命令查看:cd $GAUSSLOG/pg_log/组件编号
      • 如果为数据库通用报错信息,基本上为业务使用问题,联系业务处理。
      • 如果为GaussDB独有的报错信息,执行4
      • 如果没有报错日志,联系客户确认是否为业务正常的回滚操作。
      组件编号通过执行命令获取。如下图所示:dn_6001即表示组件编号
    • cm_ctl query -Cvi
    • 查看告警时间点周围,pg_log日志中,是否有ERROR日志或者FATAL日志。
  4. 联系技术支持进行处理。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html

posted on 2024-10-21 19:44  数据库笔记  阅读(6)  评论(0)    收藏  举报