yuan-er

导航

 

ALM-5101723 Ops巡检-泄漏句柄数异常

告警解释

此告警对应指标“泄漏句柄数”超出配置的阈值,反映节点上泄漏的句柄总数。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5101723

巡检配置

物理资源告警

租户面

云数据库 GaussDB 节点

告警参数

类别

参数名称

参数含义

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

  • 如果有大量句柄泄漏,可能会导致句柄和磁盘资源被占用。
  • 如果指标持续上涨,不见平稳,极端情况下,会导致句柄或磁盘用尽,影响系统运行。
  • 如果指标上涨后趋于平稳或周期性上涨回落,业务依然正常运行,那风险可控。

可能原因

打开的句柄未关闭。

处理步骤

  1. 收到告警后,通过查看监控指标查看泄漏句柄数指标情况,确认指标情况以及触发告警的节点。
  2. 根据指标的趋势,判断影响。

     

    • 如果指标持续上涨,无平稳趋势,极端情况下,会导致句柄或磁盘用尽,影响系统运行。
    • 如果指标上涨后趋于平稳或周期性上涨回落,业务依然正常运行,则风险可控,尽快确定泄漏的句柄,彻底消除风险。

     

  3. 通过登录实例节点,登录告警节点,执行如下命令确认是否有数据输出,输出数据即泄漏的句柄。

     

    ps ux | grep -E -- 'gaussdb|cm_agent|gs_gtm|agent|cm_server|etcd' | grep -v 'grep' | awk '{print $2}' | xargs -n1 lsof -p | grep 'delete'

     

  4. 联系技术支持

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

 
posted on 2024-10-24 11:03  数据库笔记  阅读(5)  评论(0)    收藏  举报