yuan-er

导航

 

ALM-5101714 Ops巡检-在线会话数量异常

告警解释

DBS运维管理平台提供指标监控能力,监测到当前连接到实例(CN或DN)上的会话数量,包含所有状态的会话(会话状态分类参考pg_stat_activity视图内的state字段)异常,产生此告警。

告警属性

5101714

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

  • 如果指标持续上涨,没有平稳和回落的趋势,会有达到最大并发连接数上限的风险,达到上限后,业务新连接连入会报错,新连接无法建连。
  • 如果指标上涨后趋于平稳,需要同时确认是否有“动态内存使用率”异常告警。
    • 如果有,当“动态内存使用率”指标大于等于100%时,业务语句执行会有无法申请内存而报错的可能。
    • 如果没有,查看指标的波动趋势,如果“动态内存使用率”指标低于100%,对业务无影响。

可能原因

  • 业务正常变动,增加并发。
  • 业务连接池配置不合理,导致空闲会话过多。
  • SQL执行时延升高。

处理步骤

  1. 收到告警后,通过查看监控指标查看指标“在线会话数量”,确认此指标波动趋势以及确认触发告警的组件(CN或DN。
  2. 通过查看监控指标查看“动态内存使用率”指标。
    • 如果指标达到100%时,执行3,消除风险;
    • 如果指标没有接近100%,执行4
  3. 参考查杀会话,查杀空闲会话。
  4. 参考登录实例节点,登录告警组件所在节点,执行如下命令,查看实例(CN或DN)上的最大并发连接数。show max_connections;
    • 如果指标持续上涨,没有平稳和回落的趋势,指标值接近max_connections的值,执行3
    • 如果指标已平稳,或者回落,指标值没有达到max_connections的值,执行步骤5
  5. 通过查看监控指标查看指标“80% SQL的响应时间”、“95% SQL的响应时间”和“用户DML语句数”。
    • 如果“80% SQL的响应时间”、“95% SQL的响应时间”指标没有上涨,或“80% SQL的响应时间”、“95% SQL的响应时间”指标上涨同时“用户DML语句数”也上涨,请联系客户确认是否为业务增加并发,执行6
    • 如果“80% SQL的响应时间”、“95% SQL的响应时间”指标上涨同时“用户DML语句数”无波动或下降,执行步骤7
  6. 通过查看监控指标查看“动态内存使用率”指标。
    • 如果“动态内存使用率”没有异常但此指标接近max_connections,可根据实际情况适当调大max_connections的值,但是要保证“动态内存指标”指标不可超过80%,且调整max_connections参数后需要重启数据库生效,谨慎操作。
    • 如果“动态内存使用率”指标接近或超过阈值,协调客户降低并发,并联系业务分析连接数是否合理,可以考虑调整连接池参数来降低连接数。
  7. 参考ALM-5101180 Ops巡检-80% SQL的响应时间异常告警的处理方法。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html

posted on 2024-10-24 09:25  数据库笔记  阅读(14)  评论(0)    收藏  举报