yuan-er

导航

 

ALM-5023067 云数据库 GaussDB存储高可用切换失败

告警解释

GaussDB在备节点升主之后,原主节点的数据盘会切换到冷备节点上,由于主节点异常存在节点掉电无法操作,节点网络故障命令无法下发等,可能存在数据盘切换失败的场景,会产生告警,需要人工确认机器正常之后执行后续操作。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5023067

重要

操作告警

租户面

云数据库 GaussDB

告警参数

类别

参数名称

参数含义

定位信息

 

 

 

 

云服务

产生告警的云服务

系统

产生告警的系统

模块

产生告警的模块

实例ID

产生告警的实例ID

实例名称

产生告警的实例名称

实例数据IP

产生告警的实例的数据浮动IP列表。在没有数据浮动IP时不展示此字段。

工作ID

产生告警的工作流ID

附加信息

 

 

 

 

 

 

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

对系统的影响

存储切换状态下,无法进行下一次的存储切换,且容灾操作也不允许进行。

可能原因

节点掉电无法操作,节点网络故障命令无法下发等。

处理步骤

  1. 在运维管理平台中找到对应实例,在工作流中找到执行失败的SwitchGaussDBV5Volume工作流,查看工作流失败原因:

     

     

  2. 在运维管理平台实例详情页面确认节点降为冷备节点。

     

    1. 登录对应节点。
    2. 使用root用户执行命令。

      lvs

      如上图所示,mydata1卷组显示存在,首先尝试重试失败任务,如果不存在mydata1,说明故障机器已经发生重启,则直接跳至3进行任务跳过。

    3. 参考如下步骤重试失败任务。
      1. 判断数据盘分区还未清理,重做RestoreCrashNodeTask任务,流程正常完成,如果仍然WaitRestoreCrashNodeTask失败,进行下一步。

      2. 如果正常重做任务无法清理数据盘信息,尝试手动通过dmsetup工具删除故障数据盘:

        dmsetup remove /dev/mapper/gaussdbvg1-mydata1

        删除故障数据盘可能会失败,多次重试仍然不能成功删除数据盘分区,尝试重启故障节点操作系统,即可清理数据盘分区信息。

      3. 手动dmsetup删除或者重启机器后,检查数据盘分区和挂载已经清理,则进行下一步骤跳过失败任务。

     

  3. 单击WaitRestoreCrashNodeTask右下角箭头,跳过任务。

     

     

    确认工作流执行结束即可。

     

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

posted on 2024-09-24 09:49  数据库笔记  阅读(7)  评论(0)    收藏  举报