yuan-er

导航

 


对系统的影响
主备版实例没有该告警。
部分业务回滚。
GTM全部故障后,如果数据库配置的一致性类型为强一致性,则集群无法提供服务。
可能原因
GTM节点所在服务器故障。
GTM节点所在服务器网络故障。
GTM因为主备倒换、资源不足等原因无法启动。
处理步骤
参考登录实例节点登录数据库节点。
如果登录成功,按照2~6 进行检查修复。
如果不能登录,则执行如下步骤进行节点替换。
登录DBS运维管理平台。
在“实例运维 > 实例管理”页签根据实例ID找到实例。
单击实例名称,进入“GaussDB基本信息”页面。
根据告警信息中的节点ID,在“节点列表”模块中找到对应节点。
单击节点名称,进入节点基本信息页面,获取到服务器资源参考查看实例节点状态,确认服务器是否正常。
如果服务器异常,则参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节替换故障节点。如果替换失败,请执行7。
如果服务器正常,则请执行以下步骤。
执行如下命令,导入环境变量。

执行如下指令,查看网络连通性。

如果网络不通,说明网络异常,请执行7。
如果网络互通,继续执行下列步骤。
执行如下指令,在Ruby用户下查看集群各节点状态,查看GTM状态。

如果GTM节点状态为“Primary”或“Standby”,则系统已经自修复,无需进行后续步骤。
如果GTM节点一直无法启动,处于“Down”状态。参考登录实例节点登录GTM状态为Down的节点,执行如下指令查看原GTM主进程号并记录。继续执行5。

执行如下指令,停止GTM进程。

执行如下指令查看GTM主进程是否被重新拉起。

如果进程号发生变化,且正常启动,状态为“Primary”或“Standby”,则修复成功,否则继续执行后续步骤。
如果GTM节点一直无法启动,处于Down状态,则执行7。
参考收集日志,下载节点日志,并收集告警信息和配置信息,联系技术支持进行处理。

Agent组件下的/var/log/message
GaussDB Kernel组件下的/var/lib/log/Ruby
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息
不涉及。

posted on 2024-09-18 15:46  数据库笔记  阅读(15)  评论(0)    收藏  举报