yuan-er

导航

 

ALM-5025003 云数据库 GaussDB DN失效切换

告警解释

当集群DN主实例失效(节点无法连接或者进程损坏等),GaussDB将备实例升为主实例时,产生该告警。

告警属性

5025003

重要

保护倒换

租户面

云数据库 GaussDB 节点

告警参数

定位信息

云服务

产生告警的云服务

系统

产生告警的系统

模块

产生告警的模块

实例

产生告警的实例ID

节点

产生告警的实例节点ID

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

对系统的影响

  • DN主实例失效时,会发生DN失效切换。切换过程中集群无法对外提供服务,业务会闪断。
  • 切换完成后集群可正常对外提供服务,但是需要尽快修复失效的DN实例,保证集群的高可用。

可能原因

  • 手动停止节点操作。
  • DN主实例失效,无法对外提供服务。
  • DN主备实例连接断开。

处理步骤

  1. 在告警定位信息中获取实例ID。
  2. 登录DBS运维管理平台
  3. 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”,输入框中输入实例ID,执行搜索,查看是否在有停止节点“StopInstance”的工作流。
  4. 如果有手动停止节点操作,且除停止的节点外,其余节点状态正常,则当前集群状态正常。手动停止节点时,如果当前节点有主DN实例,会触发DN失效切换,备DN实例升为主DN实例,上报云数据库GaussDB DN失效切换告警。无需再进行下面的操作步骤。
  5. 选择当前实例的任一正常节点,参考登录实例节点,登录数据库节点。
  6. 执行以下命令检查集群状态。找到DN实例状态部分。cm_ctl query -Cvdipz ALL[ Datanode State ] node node_ip instance state | node node_ip instance state | node node_ip instance state --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- az3.dc0 1 25.213.61.150 192.168.0.66 6001 /var/lib/engine/data1/data/dn_1 P Primary Normal | az4.dc0 2 25.213.10.25 192.168.0.107 6002 /var/lib/engine/data1/data/dn_2 S Standby Normal | az5.dc0 3 25.213.36.153 192.168.0.170 6003 /var/lib/engine/data1/data/dn_3 S Standby Normal az4.dc0 2 25.213.10.25 192.168.0.107 6004 /var/lib/engine/data2/data/dn_5 P Down Unknown | az3.dc0 1 25.213.61.150 192.168.0.66 6005 /var/lib/engine/data2/data/dn_4 S Primary Normal | az5.dc0 3 25.213.36.153 192.168.0.170 6006 /var/lib/engine/data2/data/dn_6 S Secondary Normal az5.dc0 3 25.213.36.153 192.168.0.170 6007 /var/lib/engine/data3/data/dn_9 P Primary Normal | az3.dc0 1 25.213.61.150 192.168.0.66 6008 /var/lib/engine/data3/data/dn_7 S Standby Normal | az4.dc0 2 25.213.10.25 192.168.0.107 6009 /var/lib/engine/data3/data/dn_8 S Standby Normal
  7. 请继续确认原DN主实例所在节点上是否所有其他实例也异常。如果是,请执行7。如果否,请执行8
  8. 发生该告警后,通常DN主实例的状态是异常的,DN备实例升为DN主实例。例如下面示例中粗体标识部分。
  9. 使用ping命令检查DN主备实例所在节点是否断连。ping 25.213.10.25如果修复失败,请联系网络人员修复网络后重试。
  10. 如果断连,修复节点连接。具体方法请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点修复”章节。
  11. 如果紧急情况需要恢复,请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节进行节点替换。NOTICE:节点替换后,原节点的数据会被删除,节点将会被回收,替换前建议收集日志,供后续定位处理。收集日志的方法请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节中的“日志收集要求”内容。

告警清除

此告警修复后,需要在当前告警页面手工清除此告警。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html

posted on 2024-09-29 14:26  数据库笔记  阅读(8)  评论(0)    收藏  举报