ALM-5101170 Ops巡检-用户回滚的事务数异常
告警解释
此指标反映用户执行的事务每秒回滚的数量,反映用户业务执行失败的情况。对应指标“用户回滚的事务数”超出配置阈值,产生告警。
告警属性
|
5101170 |
巡检配置 |
业务质量告警 |
租户面 |
云数据库 GaussDB 节点 |
是 |
告警参数
|
定位信息 |
云服务 |
产生告警的云服务 |
|
实例ID |
产生告警的实例ID |
|
|
节点ID |
产生告警的节点ID |
|
|
巡检名称 |
产生告警的巡检名称 |
|
|
指标编码 |
产生告警的指标编码 |
|
|
附加信息 |
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
租户ID |
产生告警的租户ID |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
|
|
节点角色 |
产生告警节点的节点角色 |
|
|
指标编码 |
产生告警节点的指标编码 |
|
|
指标采集值 |
产生告警节点的指标采集值 |
|
|
指标阈值 |
产生告警节点的指标阈值 |
对系统的影响
指标较高时,表示用户执行的事务失败数量多,业务执行异常,严重时会导致业务的成功率下降。
可能原因
- 业务正常行为。
- 出现故障。
- 业务语句执行报错。
处理步骤
- 收到告警后,通过查看监控指标查看指标“用户回滚的事务数”,确认指标情况以及确认触发告警的节点以及组件。
- 同步查看指标“Data Manipulation Language/s”、“80% SQL的响应时间”、“95% SQL的响应时间”和“线程池使用率”等指标是否波动或告警。如果有指标波动或告警,参考对应指标的异常处理方式。
- 同步排查告警组件所在节点底层是否有故障告警。获取 查看虚拟机资源ID,联系IAAS技术人员排查是否有底层故障告警。
- 有,按照底层故障处理方法处理。
- 无,查看告警组件的内核日志,确认是否有报错,执行以下命令查看:cd $GAUSSLOG/pg_log/组件编号
- 如果为数据库通用报错信息,基本上为业务使用问题,联系业务处理。
- 如果为GaussDB独有的报错信息,执行4。
- 如果没有报错日志,联系客户确认是否为业务正常的回滚操作。
- cm_ctl query -Cvi
- 查看告警时间点周围,pg_log日志中,是否有ERROR日志或者FATAL日志。
- 联系技术支持进行处理。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html
浙公网安备 33010602011771号