ALM-5101756 Ops巡检-用户库慢SQL数量异常
告警解释
此告警对应指标“用户库慢SQL数量”超出配置阈值,此指标反映数据库中慢SQL的数量。
告警属性
|
告警ID |
告警级别 |
告警类型 |
告警归属 |
业务类型 |
是否可自动清除 |
|---|---|---|---|---|---|
|
5101756 |
巡检配置 |
业务质量告警 |
租户面 |
云数据库 GaussDB 节点 |
是 |
告警参数
|
类别 |
参数名称 |
参数含义 |
|---|---|---|
|
定位信息 |
云服务 |
产生告警的云服务 |
|
实例ID |
产生告警的实例ID |
|
|
节点ID |
产生告警的节点ID |
|
|
巡检名称 |
产生告警的巡检名称 |
|
|
指标编码 |
产生告警的指标编码 |
|
|
附加信息 |
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
租户ID |
产生告警的租户ID |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
|
|
节点角色 |
产生告警节点的节点角色 |
|
|
指标编码 |
产生告警节点的指标编码 |
|
|
指标采集值 |
产生告警节点的指标采集值 |
|
|
指标阈值 |
产生告警节点的指标阈值 |
对系统的影响
慢SQL数量增加,SQL执行变慢,影响业务接口时延和成功率。
处理步骤
- 收到告警后,通过查看监控指标查看指标“用户库慢SQL数量”,确认指标情况以及触发告警的节点。
- 查看触发告警的节点的慢SQL语句和出现次数。
- 如果是单个语句慢SQL数量很多,且和其他语句慢SQL数量差距在两个数量级。
- 如果是所有语句慢SQL数量差别不大,几乎没有跨数量级,执行3。
NOTICE:
数量级的差即它们相差的10的倍数。如果数字相差一个数量级,则 x 的数量大约是 y 的十倍。 如果值相差两个数量级,则它们相差约 100 倍。
- 通过查看监控指标查看“80% SQL的响应时间”的指标波动情况,判断指标是陡增还是缓慢增长。
- 通过查看监控指标查看“Data Manipulation Language/s”的指标波动情况指标。
- 如果两个指标同时上涨,则表示业务请求量上涨导致,考虑联系客户进行限流。
- 如果“Data Manipulation Language/s”指标没有上涨,继续查看,执行5。
- 判断开始增长的时间点,是否存在数据库变更或业务侧变更操作。
- 如果存在变更,当前告警的根因基本上同变更有关,分析当前变更的影响以及业务的实际影响。
- 如果没有变更,通过查找引起SQL性能劣化的故障节点排查节点底层是否存在故障告警。
- 存在故障
- 如果在陡增的时间点周围,故障告警自动恢复,并且当前告警指标已恢复正常,则可确定为底层故障导致的问题。
- 如果底层故障未恢复或指标长时间未回落,考虑对故障节点做隔离。
- 如果是CN故障,对CN进行下电,具体请参考《华为云Stack 8.3.1 运维指南》中的“系统下电”章节。;
- 如果是DN故障,做主备切换,具体请参考《云数据库 GaussDB 24.1.30 使用指南(for 华为云Stack 8.3.1)》中的“用户指南 > 操作指南 > 变更实例 > DN主备倒换”章节。
- 不存在底层故障,继续执行 6。
- 存在故障
- 具体方法请参考《云数据库 GaussDB 24.1.30 维护指南(for 华为云Stack 8.3.1)》中的章节。
- 如无法解决,请联系技术支持。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
浙公网安备 33010602011771号