ALM-5101714 Ops巡检-在线会话数量异常
告警解释
DBS运维管理平台提供指标监控能力,监测到当前连接到实例(CN或DN)上的会话数量,包含所有状态的会话(会话状态分类参考pg_stat_activity视图内的state字段)异常,产生此告警。
告警属性
|
5101714 |
巡检配置 |
业务质量告警 |
租户面 |
云数据库 GaussDB 节点 |
是 |
告警参数
|
定位信息 |
云服务 |
产生告警的云服务 |
|
实例ID |
产生告警的实例ID |
|
|
节点ID |
产生告警的节点ID |
|
|
巡检名称 |
产生告警的巡检名称 |
|
|
指标编码 |
产生告警的指标编码 |
|
|
附加信息 |
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
租户ID |
产生告警的租户ID |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
|
|
节点角色 |
产生告警节点的节点角色 |
|
|
指标编码 |
产生告警节点的指标编码 |
|
|
指标采集值 |
产生告警节点的指标采集值 |
|
|
指标阈值 |
产生告警节点的指标阈值 |
对系统的影响
- 如果指标持续上涨,没有平稳和回落的趋势,会有达到最大并发连接数上限的风险,达到上限后,业务新连接连入会报错,新连接无法建连。
- 如果指标上涨后趋于平稳,需要同时确认是否有“动态内存使用率”异常告警。
- 如果有,当“动态内存使用率”指标大于等于100%时,业务语句执行会有无法申请内存而报错的可能。
- 如果没有,查看指标的波动趋势,如果“动态内存使用率”指标低于100%,对业务无影响。
可能原因
- 业务正常变动,增加并发。
- 业务连接池配置不合理,导致空闲会话过多。
- SQL执行时延升高。
处理步骤
- 收到告警后,通过查看监控指标查看指标“在线会话数量”,确认此指标波动趋势以及确认触发告警的组件(CN或DN。
- 通过查看监控指标查看“动态内存使用率”指标。
- 参考查杀会话,查杀空闲会话。
- 参考登录实例节点,登录告警组件所在节点,执行如下命令,查看实例(CN或DN)上的最大并发连接数。show max_connections;
- 通过查看监控指标查看指标“80% SQL的响应时间”、“95% SQL的响应时间”和“用户DML语句数”。
- 通过查看监控指标查看“动态内存使用率”指标。
- 如果“动态内存使用率”没有异常但此指标接近max_connections,可根据实际情况适当调大max_connections的值,但是要保证“动态内存指标”指标不可超过80%,且调整max_connections参数后需要重启数据库生效,谨慎操作。
- 如果“动态内存使用率”指标接近或超过阈值,协调客户降低并发,并联系业务分析连接数是否合理,可以考虑调整连接池参数来降低连接数。
- 参考ALM-5101180 Ops巡检-80% SQL的响应时间异常告警的处理方法。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html
浙公网安备 33010602011771号