ALM-5025003 云数据库 GaussDB DN失效切换
告警解释
当集群DN主实例失效(节点无法连接或者进程损坏等),GaussDB将备实例升为主实例时,产生该告警。
告警属性
|
5025003 |
重要 |
保护倒换 |
租户面 |
云数据库 GaussDB 节点 |
否 |
告警参数
|
定位信息 |
云服务 |
产生告警的云服务 |
|
系统 |
产生告警的系统 |
|
|
模块 |
产生告警的模块 |
|
|
实例 |
产生告警的实例ID |
|
|
节点 |
产生告警的实例节点ID |
|
|
附加信息 |
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
|
|
节点角色 |
产生告警节点的节点角色 |
对系统的影响
- DN主实例失效时,会发生DN失效切换。切换过程中集群无法对外提供服务,业务会闪断。
- 切换完成后集群可正常对外提供服务,但是需要尽快修复失效的DN实例,保证集群的高可用。
可能原因
- 手动停止节点操作。
- DN主实例失效,无法对外提供服务。
- DN主备实例连接断开。
处理步骤
- 在告警定位信息中获取实例ID。
- 登录DBS运维管理平台。
- 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”,输入框中输入实例ID,执行搜索,查看是否在有停止节点“StopInstance”的工作流。
- 如果有手动停止节点操作,且除停止的节点外,其余节点状态正常,则当前集群状态正常。手动停止节点时,如果当前节点有主DN实例,会触发DN失效切换,备DN实例升为主DN实例,上报云数据库GaussDB DN失效切换告警。无需再进行下面的操作步骤。
- 选择当前实例的任一正常节点,参考登录实例节点,登录数据库节点。
- 执行以下命令检查集群状态。找到DN实例状态部分。cm_ctl query -Cvdipz ALL[ Datanode State ] node node_ip instance state | node node_ip instance state | node node_ip instance state --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- az3.dc0 1 25.213.61.150 192.168.0.66 6001 /var/lib/engine/data1/data/dn_1 P Primary Normal | az4.dc0 2 25.213.10.25 192.168.0.107 6002 /var/lib/engine/data1/data/dn_2 S Standby Normal | az5.dc0 3 25.213.36.153 192.168.0.170 6003 /var/lib/engine/data1/data/dn_3 S Standby Normal az4.dc0 2 25.213.10.25 192.168.0.107 6004 /var/lib/engine/data2/data/dn_5 P Down Unknown | az3.dc0 1 25.213.61.150 192.168.0.66 6005 /var/lib/engine/data2/data/dn_4 S Primary Normal | az5.dc0 3 25.213.36.153 192.168.0.170 6006 /var/lib/engine/data2/data/dn_6 S Secondary Normal az5.dc0 3 25.213.36.153 192.168.0.170 6007 /var/lib/engine/data3/data/dn_9 P Primary Normal | az3.dc0 1 25.213.61.150 192.168.0.66 6008 /var/lib/engine/data3/data/dn_7 S Standby Normal | az4.dc0 2 25.213.10.25 192.168.0.107 6009 /var/lib/engine/data3/data/dn_8 S Standby Normal
- 请继续确认原DN主实例所在节点上是否所有其他实例也异常。如果是,请执行7。如果否,请执行8。
- 发生该告警后,通常DN主实例的状态是异常的,DN备实例升为DN主实例。例如下面示例中粗体标识部分。
- 使用ping命令检查DN主备实例所在节点是否断连。ping 25.213.10.25如果修复失败,请联系网络人员修复网络后重试。
- 如果断连,修复节点连接。具体方法请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点修复”章节。
- 如果紧急情况需要恢复,请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节进行节点替换。NOTICE:节点替换后,原节点的数据会被删除,节点将会被回收,替换前建议收集日志,供后续定位处理。收集日志的方法请参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节中的“日志收集要求”内容。
告警清除
此告警修复后,需要在当前告警页面手工清除此告警。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html
浙公网安备 33010602011771号