对系统的影响
会导致无法主备倒换。
可能原因
CM节点所在服务器故障。
网络原因导致CM所在服务器网络不通。
CM进程损坏。
处理步骤
根据告警信息中的节点ID,登录实例节点。
如果登录成功,按照2到4进行检查修复。
如果不能则执行如下步骤进行节点替换。
登录DBS运维管理平台。
在“实例运维 > 实例管理”页签根据实例ID找到实例。
单击实例名称,进入“GaussDB基本信息”页面。
根据告警信息中的节点ID,在“节点列表”模块中找到对应节点。
单击节点名称,进入节点基本信息页面,获取到服务器资源参考查看实例节点状态,确认服务器是否正常。
如果服务器异常,则参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点替换”章节替换故障节点。如果替换失败,请执行5。
如果服务器正常,则执行以下步骤。
执行如下命令,导入环境变量。
source /home/Ruby/gauss_env_file
执行如下指令查看cm_server所在节点网络连接是否正常。
cm_ctl query -Cvid
ping
node_ip
node_ip
为上图中其他节点的IP地址。
如果网络不通,联系网络管理员。
如果网络可以连通,继续执行如下步骤。
参考登录实例节点登录CMServer状态为Down的节点,执行如下指令查看cm_server进程是否在运行。
ps ux| grep cm_server| grep -v grep
如果指令执行无信息返回,表示cm_server进程不存在,执行以下指令,尝试手动启动cm_server。
cm_ctl start
执行后等待几秒再执行如下指令,查看cm_server进程是否存在。
ps ux| grep cm_server| grep -v grep
如果进程已存在,则执行如下指令查看最新的cm_server状态。
cm_ctl query -Cvid
如果状态为正常,则已经修复,无需后续处理。
如果进程仍不存在,则可参考《华为云Stack 8.3.1 应急预案》中的“数据库服务 > 云数据库 GaussDB > 运维案例库 > 租户面应急案例 > 节点修复”章节修复节点。
如果以上步骤仍未解决问题,请执行5。
参考收集日志,下载节点日志,并收集告警信息和配置信息,联系技术支持进行处理。
需要下载的日志信息有:
Agent组件下的/var/log/message
GaussDB Kernel组件下的/var/lib/log/Ruby
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
浙公网安备 33010602011771号