GaussDB 分布式模式下断电后,集群无法启动

问题分析:

首选要确认集群的状态,评估影响的范围。待确认好集群状态后,收集项目报错信息,定位问题根源,制定处理方案。

处理步骤:

1.尝试登陆FI界面,确认集群的状态。--告警很多,我们可以尝试看看是否能找到解决办法。
通过FI界面,我们看到集群有一台节点的服务没有启动。从告警信息来看,也发现了一些告警:主备不同步,集群状态异常等信息。

image

 

2.登录数据库后台,查看集群状态

 

发现:
1.集群状态变成了Degraded,且不均衡状态。
2.安全环内出现了关键字“Down Unknow”,且都是GS03节点!

分析:通过FI界面和后台集群状态,我们可以判断出集群GS03节点是没启动。所以需要确认GS03节点是怎么回事?
1.网络不通?
2.操作系统起不来?
3.被手工隔离了?
4.其他原因?

1.首先确认网络是否可以ping通!

 

2.尝试修复节点,恢复通信,网络恢复且能正常远程

 

3.切换FI界面,启动GS03节点的所有实例

 

 

4.启动实例失败


5.登录后台,查看集群状态

 

从后台看出 ,Datanode State安全环已经正常,数据实例已经起来了,只是CN在10分钟内未恢复通信,被自动剔除。

 

4.快速修复CN实例(注释白名单)

5.重置实例状态(gs_om -t switch --reset )

 

6.登录后台,再次查看集群状态,已恢复Normal

posted @ 2025-11-27 14:39  一位94年.天蝎座的Men  阅读(3)  评论(0)    收藏  举报