yuan-er

导航

 

GaussDB-ALM-5101346 Ops巡检-CN进程启动时间异常

告警解释

此告警对应指标“CN进程启动时间”,此指标反映CN进程启动的时间超出阈值,如果此指标的值发生更新,说明CN进程重启。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5101346

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

类别

参数名称

参数含义

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

重启会使得业务闪断。

可能原因

  • 存在变更操作
  • 存在重启进程操作。
  • 虚拟机、物理机重启。
  • CN故障。
  • Core Dump 核心转储。

Core Dump 表示核心转储,当程序运行过程中发生异常,程序异常退出时,由操作系统把程序当前的内存状况存储在一个core文件中。

处理步骤

  1. 收到告警后,首先通过查看监控指标查看指标“CN进程启动时间”,确认指标情况以及触发告警的组件。
  2. 确认是否有内核升级或重启进程的操作。

     

    • 是,属于正常重启,重启时间在变更期间,符合预期。
    • 否,执行3

     

  3. 确认虚拟机和物理机是否发生过重启,可以登录告警组件所在节点,执行如下命令,查看所有进程的启动时间。

     

    ps -T

    • 如果节点上所有进程启动时间相同,大概率是虚拟机或者物理机发生过重启,联系技术支持处理。
    • 否则,执行4

     

  4. 确认重启时间周围,是否有其他的事件告警或者故障告警。

     

    • 是,按照对应告警的处理方式处理。
    • 否,执行5

     

  5. 确认进程是否发生过Core Dump,进入$GAUSSLOG/ffic_log目录下,查看是否有重启时间周围的日志文件。

     

     

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

posted on 2024-10-24 08:38  数据库笔记  阅读(9)  评论(0)    收藏  举报