yuan-er

导航

 

ALM-5023044 云数据库 GaussDB降副本失败

告警解释

云数据库 GaussDB集群降副本失败,产生此告警。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5023044

重要

操作告警

租户面

云数据库 GaussDB

告警参数

类别

参数名称

参数含义

定位信息

 

 

 

 

云服务

产生告警的云服务

系统

产生告警的系统

模块

产生告警的模块

实例ID

产生告警的实例ID

实例名称

产生告警的实例名称

实例数据IP

产生告警的实例的数据浮动IP列表。在没有数据浮动IP时不展示此字段。

工作ID

产生告警的工作流ID

附加信息

 

 

 

 

 

 

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

对系统的影响

不能减少副本或不能释放资源。

可能原因

  • 网络故障。
  • 内核执行降副本操作失败。
  • 释放资源失败。

处理步骤

  1. 检查GaussDB Service是否可通过SSH连接到实例。

     

    1. 登录DBS运维管理平台,选择“实例运维 > 实例管理 > 实例列表”, 输入实例ID,执行搜索。
    2. 单击1.a中查询的实例名称,进入实例详情,在实例详情中查找“管理虚拟ip”,即GaussDB实例的管理VIP。

       

       

    3. 以opsadmin用户名登录1.a查询到的管理节点,执行ping命令,确认1.b中GaussDB实例的管理VIP的网络是否正常。
      • 如果无法ping通,说明GaussDB Service到实例网络不通,请联系网络管理员首先排查网络故障,网络故障排除后重试重启操作。
      • 如果可ping通,说明GaussDB Service到实例网络可以联通。可重新下发变更副本操作。如果集群变更副本操作仍然失败,请执行2

     

  2. 登录DBS运维管理平台,找到失败任务的树表。

     

    • 如果WaitReduceReplicaTask执行失败,则说明是内核执行降副本操作失败,请执行3并联系内核运维进行处理。
    • 如果Gaussdbv5CheckVMDeletionResultTask执行失败,则说明是IAAS层释放资源失败,请执行3并联系IAAS层运维进行处理。

     

  3. 参考下载管理节点日志收集日志,并收集告警信息,联系技术支持进行处理。

     

    需要下载的日志信息有:

    管理侧:

    • DBS-GaussDB-backupmanager组件下的日志。
    • DBS-GaussDB-instancemanager组件下的日志。

    租户侧:

    Agent组件下的:

    • /home/Ruby/log/agent.log
    • /home/Ruby/log/asyncJobResult.dat

    GaussDB Kernel组件下的:

    /var/lib/log/Ruby

     

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

posted on 2024-09-23 10:14  数据库笔记  阅读(3)  评论(0)    收藏  举报