ALM-5101163 Ops巡检-活跃会话率异常
告警解释
DBS运维管理平台提供指标监控能力,监测到处于活跃状态的会话数量占在线会话数量的百分比异常,产生此告警。
告警属性
|
5101163 |
巡检配置 |
业务质量告警 |
租户面 |
云数据库 GaussDB 节点 |
是 |
告警参数
|
定位信息 |
云服务 |
产生告警的云服务 |
|
实例ID |
产生告警的实例ID |
|
|
节点ID |
产生告警的节点ID |
|
|
巡检名称 |
产生告警的巡检名称 |
|
|
指标编码 |
产生告警的指标编码 |
|
|
附加信息 |
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
租户ID |
产生告警的租户ID |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
|
|
节点角色 |
产生告警节点的节点角色 |
|
|
指标编码 |
产生告警节点的指标编码 |
|
|
指标采集值 |
产生告警节点的指标采集值 |
|
|
指标阈值 |
产生告警节点的指标阈值 |
对系统的影响
此指标升高会导致线程池使用率升高。
可能原因
- 因业务导致会话并发增加。
- 并发问题,并发更新场景产生锁等待。
- SQL执行时延升高。
处理步骤
- 收到告警后,通过查看监控指标查看指标“线程池使用率”,确认指标情况以及确认触发告警的节点。
- 查看业务关键指标,确认业务影响,通过查看监控指标查看“Data Manipulation Language/s”、“95% SQL的响应时间”、“80% SQL的响应时间”和“在线会话数量”等指标。如果对业务有严重影响,需要尽快决策是否通过终止正在执行的业务方式恢复,可以采用如下恢复手段(按照推荐顺序排列,如果无法恢复可以尝试下一个方法):
- 查杀会话。
- 重启GaussDB进程。
- 进行主备倒换,具体请参考《云数据库 GaussDB 24.1.30 使用指南 (for 华为云Stack 8.3.1)》中的“用户指南 > 操作指南 > 变更实例 > DN主备倒换”章节。
- 联系客户进行业务限流操作。
- 如果指标持续告警,指标未回落,通过登录实例节点登录到触发告警的节点。执行如下SQL,尝试抓取可能导致线程池高的语句。确认elp(语句执行时间)排在前边的语句的query是否相似:
- 如果相似且该语句普遍执行时间较其他语句偏长,说明此语句的性能存在问题,请参考ALM-5101181 Ops巡检-95% SQL的响应时间异常告警的处理方法。
- 如果语句不相同,或语句的执行时间相差不多,参考ALM-5101180 Ops巡检-80% SQL的响应时间异常告警的处理方法。
- select pid,sessionid, query, state,usename,now()-query_start as elp from pg_stat_activity where pid!=0 and usename not like ‘rds%’ order by elp desc;
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html
浙公网安备 33010602011771号