ALM-5023012 云数据库 GaussDB版本升级失败
告警解释
云数据库 GaussDB版本升级失败,则上报告警。
告警属性
|
告警ID |
告警级别 |
告警类型 |
告警归属 |
业务类型 |
是否可自动清除 |
|---|---|---|---|---|---|
|
5023012 |
重要 |
操作告警 |
租户面 |
云数据库 GaussDB |
是 |
告警参数
|
类别 |
参数名称 |
参数含义 |
|---|---|---|
|
定位信息
|
云服务 |
产生告警的云服务 |
|
系统 |
产生告警的系统 |
|
|
模块 |
产生告警的模块 |
|
|
实例ID |
产生告警的实例ID |
|
|
实例名称 |
产生告警的实例名称 |
|
|
实例数据IP |
产生告警的实例的数据浮动IP列表。在没有数据浮动IP时不展示此字段。 |
|
|
工作ID |
产生告警的工作流ID |
|
|
附加信息
|
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
对系统的影响
可能影响数据库功能。
可能原因
- 升级节点存在网络故障,硬件故障,导致升级失败。
- 内核执行gs_upgradectl失败。
- 节点被重启,浮动IP启动失败,导致升级失败。
处理步骤
- 参考登录DBS运维管理平台,登录DBS运维管理平台。
- 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入上一步获取的实例ID或工作ID,执行搜索。
“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。
- 根据2中任务执行结果,定位不同的故障场景操作。
- 如果是UpgradeJob失败,则说明是内核执行gs_upgradectl失败或者节点故障或者被重启,需要参考下列步骤登录下发升级命令的节点查看升级日志。
- 通过UpgradeJob任务,找升级命令下发节点的NODE_ID。
- 根据NODE_ID,参考登录实例节点,登录进入节点后。
- 进入/home/Ruby/log/asyncJobResult.dat文件,查看升级任务的异步记录信息。
- 根据信息中的endtime,在/home/Ruby/log/agent.log日志文件,找到升级详细报错信息。
- 根据报错信息中的trace_id,找上下文的报错信息。
- 如果根据此报错信息无法处理,可以在$GAUSSLOG/om/gs_upgradectl_***.log文件中找GaussDB内核的升级报错信息。
- 根据步骤3.c找到endtime,在/home/Ruby/log/watch_dog.log文件,找到对应时间点点日志,如果找到浮动IP启动失败的报错信息,则为重启节点,浮动IP启动失败,导致升级失败。
- 此问题可以参考查看实例和节点信息,进入实例详情页,在实例管理详情下在打开HA监控。
打开HA监控后,根据上述步骤3.g,检查浮动IP状态为RUNNING状态后,再根据上述步骤关闭HA后,参考重做Task,重试任务继续升级。
- 如果重做失败,并且根据报错信息无法处理,请记录3.f中获取的日志文件并执行4。
- 通过UpgradeJob任务,找升级命令下发节点的NODE_ID。
- 如果是SubWorkflow4AutoRollbackOmAgentJob失败,则说明UpgradeJob任务中内核升级失败并自动回滚。
由于该任务执行的是自动回滚om_agent的任务,需要根据•如果是UpgradeJob失败,则说明是内核执...中UpgradeJob失败进行排查。
NOTICE:禁止对SubWorkflow4AutoRollbackOmAgentTask或WaitSubWorkflow4AutoRollbackOmAgentTask进行重试,否则会导致无法预估的问题。
- 其他问题,请定位根因后根据指导重试,例如网络问题,请联系网络管理员检查并修复网络,然后参考重做Task,重试任务。
如果仍然失败,请执行4。
- 如果是UpgradeJob失败,则说明是内核执行gs_upgradectl失败或者节点故障或者被重启,需要参考下列步骤登录下发升级命令的节点查看升级日志。
- 参考下载管理节点日志和收集日志,并收集告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
DBS-GaussDB-instancemanager组件下的日志。
租户侧:
Agent组件下的:
- /home/Ruby/log/agent.log
- /home/Ruby/log/asyncJobResult.dat
GaussDB Kernel组件下的:/var/lib/log/Ruby
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
浙公网安备 33010602011771号