yuan-er

导航

 

ALM-5023541 云数据库 GaussDB下载备份元数据失败

告警解释

GaussDB下载备份元数据失败,产生此告警。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5023541

重要

操作告警

租户面

云数据库 GaussDB

告警变更

变更类型

变更版本

变更描述

变更原因

新增

24.1.30

首次增加。

首次增加。

告警参数

类别

参数名称

参数含义

定位信息

云服务

产生告警的云服务

系统

产生告警的系统

模块

产生告警的模块

实例

产生告警的实例ID

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

对系统的影响

实例下载备份元数据失败,导致跨云备份恢复不可用。

可能原因

  • 网络原因导致备份元数据下载失败。
  • Agent版本原因导致缺乏下载组件。
  • 备份介质配置信息不正确,导致下载失败。

处理步骤

  1. 使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。

     

    • 密码方式:输入账号和密码。
      • 默认账号:bss_admin

        对于从8.2.0或更早版本升级上来的ManageOne,默认账号为admin。

      • 默认密码:参见《华为云Stack 8.3.1 账户一览表》的“A类(Portal)”页签中,“ManageOne运维面”账户对应的默认密码。
    • USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN码。

     

  2. 在“告警 > 告警管理 > 当前告警”中查看告警,获取告警中的实例ID或者工作ID。
  3. 单击上方菜单栏的“首页”,返回首页。
  4. 在ManageOne运维面右下角“常用链接”栏中单击“ServiceCM”,跳转到ServiceCM插件列表界面。
  5. 在ServiceCM插件列表界面,单击“自助开发平台 > dbs-ops”,进入DBS运维管理平台。
  6. 选择实例运维 > 任务管理,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入上一步获取的实例ID或工作ID,执行搜索。

     

    “失败原因”列输出了失败时的程序错误日志。单击“树表”,可以查看任务失败具体的环节。

     

  7. 根据6中失败的任务,找到任务失败的原因和失败的阶段。

     

    如果任务失败在RdsQueryBackupMetadataTask,表示执行元数据查询操作时失败,参考修改Workflow的Job Context,通过失败Task所在Job找到nodeId。

     

  8. 在“实例管理”的“实例列表”页签的高级搜索中,通过实例ID搜索到该实例,单击实例名称,进入“GaussDB基本信息”页面。
  9. 根据工作流上下文Job操作里的变量列表获得的nodeId,在“节点列表”模块中找到对应节点,复制节点名称。
  10. 参考收集日志,下载此节点Kernel组件下的/var/lib/log/Ruby日志,并在roach目录下查看报错信息。

     

    • 如果报错信息中包含“ConnectTimeoutException.”
      • 原因:预置实例节点通信异常。
      • 解决方案:
        1. 登录GaussDB实例节点。
        2. 重启dbmanagar进程。
          1. 获取pid。

            ps aux | grep dbmanage

          2. 终止进程。

            kill -9 {pid}

    • 如果报错信息中包含“cannot find metadata.”
      • 原因:XBSA设备无法连接或者元数据不存在。
      • 解决方案:检查XBSA网路是否畅通,并检查实例的XBSA设备配置信息是否正确。
        1. 登录GaussDB实例节点,执行命令,检查端口是否畅通。

          curl -kv {XBSA_IP}:{XBSA_PORT}

        2. 登录XBSA backUpAgent所在机器,查看XBSA的配置信息,需要检查storagepath, catalog和logfile参数,参数值为一个存在的文件路径。

    如果不属于以上报错,则查看/roach/controller/目录下的roach-controller日志,找到对应时刻点左右的日志,查找报错信息,关键词ERROR。如果从controller日志的报错信息中无法明确问题原因,请联系技术支持进行处理。

     

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

posted on 2024-09-29 11:09  数据库笔记  阅读(2)  评论(0)    收藏  举报