yuan-er

导航

 

ALM-5101257 Ops巡检-线程池使用率异常

告警解释

DBS运维管理平台提供指标监控能力,监测到线程池已使用百分比异常,产生此告警。

告警属性

5101257

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

  • 此指标上涨,说明数据库内的线程池中的线程使用数量增加。
  • 如果指标达到100%,会导致业务时延上涨。则在告警后要注意观察指标,如果超过阈值但未达到100%且平稳,风险可控,需要持续观察,尽快分析原因。

可能原因

  • 活跃会话较多。
  • 并发问题,并发更新场景产生锁等待。
  • SQL执行时延升高。

处理步骤

  1. 收到告警后,通过查看监控指标查看指标“线程池使用率”,确认指标情况以及确认触发告警的节点。
    • 如果指标已达100%,且未回落,执行2
    • 如果指标值未达到100%,且平稳,执行3
  2. 查看业务关键指标,确认业务影响,通过查看监控指标查看“Data Manipulation Language/s”、“95% SQL的响应时间”、“80% SQL的响应时间”和“在线会话数量”等指标。如果对业务有严重影响,需要尽快决策是否通过终止正在执行的业务方式恢复,可以采用如下恢复手段(按照推荐顺序排列,如果无法恢复可以尝试下一个方法):
    1. 查杀会话
    2. 重启GaussDB进程
    3. 进行主备倒换,具体请参考《云数据库 GaussDB 24.1.30 使用指南 (for 华为云Stack 8.3.1)》中的“用户指南 > 操作指南 > 变更实例 > DN主备倒换”章节。
    4. 联系客户进行业务限流操作。
  3. 如果指标持续告警,指标未回落,通过登录实例节点登录到触发告警的节点。执行如下SQL,尝试抓取可能导致线程池高的语句。确认elp(语句执行时间)排在前边的语句的query是否相似: 如果指标已回落,参考ALM-5101181 Ops巡检-95% SQL的响应时间异常告警的处理方法。
  4. select pid,sessionid, query, state,usename,now()-query_start as elp from pg_stat_activity where pid!=0 and usename not like ‘rds%’ order by elp desc;

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html

posted on 2024-10-22 10:43  数据库笔记  阅读(14)  评论(0)    收藏  举报