yuan-er

导航

 

ALM-5101163 Ops巡检-活跃会话率异常

告警解释

DBS运维管理平台提供指标监控能力,监测到处于活跃状态的会话数量占在线会话数量的百分比异常,产生此告警。

告警属性

5101163

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

此指标升高会导致线程池使用率升高。

可能原因

  • 因业务导致会话并发增加。
  • 并发问题,并发更新场景产生锁等待。
  • SQL执行时延升高。

处理步骤

  1. 收到告警后,通过查看监控指标查看指标“线程池使用率”,确认指标情况以及确认触发告警的节点。
    • 如果指标已达100%,且未回落,执行2
    • 如果指标值未达到100%,且平稳,执行3
  2. 查看业务关键指标,确认业务影响,通过查看监控指标查看“Data Manipulation Language/s”、“95% SQL的响应时间”、“80% SQL的响应时间”和“在线会话数量”等指标。如果对业务有严重影响,需要尽快决策是否通过终止正在执行的业务方式恢复,可以采用如下恢复手段(按照推荐顺序排列,如果无法恢复可以尝试下一个方法):
    1. 查杀会话
    2. 重启GaussDB进程
    3. 进行主备倒换,具体请参考《云数据库 GaussDB 24.1.30 使用指南 (for 华为云Stack 8.3.1)》中的“用户指南 > 操作指南 > 变更实例 > DN主备倒换”章节。
    4. 联系客户进行业务限流操作。
  3. 如果指标持续告警,指标未回落,通过登录实例节点登录到触发告警的节点。执行如下SQL,尝试抓取可能导致线程池高的语句。确认elp(语句执行时间)排在前边的语句的query是否相似: 如果指标已回落,参考ALM-5101181 Ops巡检-95% SQL的响应时间异常告警的处理方法。
  4. select pid,sessionid, query, state,usename,now()-query_start as elp from pg_stat_activity where pid!=0 and usename not like ‘rds%’ order by elp desc;

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html

posted on 2024-10-21 19:40  数据库笔记  阅读(11)  评论(0)    收藏  举报