ALM-5023055 云数据库 GaussDB容灾集群查询容灾状态异常
告警解释
GaussDB在维护灾备关系中,会定期查询主或灾备的容灾状态,对于查询主或灾备的容灾状态异常(例如:主实例全量同步失败,备实例全量恢复失败,主实例增量同步失败,备实例增量恢复失败),或主的RPO超阈值、或灾备的RTO超阈值, 均会产生告警。
- RPO(Recovery Point Objective):即数据恢复点目标,指业务系统所能容忍的数据丢失量。
- RTO(Recovery Time Objective):即恢复时间目标,指业务系统所能容忍的停服最长时间。
告警属性
|
告警ID |
告警级别 |
告警类型 |
告警归属 |
业务类型 |
是否可自动清除 |
|---|---|---|---|---|---|
|
5023055 |
重要 |
操作告警 |
租户面 |
云数据库 GaussDB |
是 |
告警参数
|
类别 |
参数名称 |
参数含义 |
|---|---|---|
|
定位信息
|
云服务 |
产生告警的云服务 |
|
系统 |
产生告警的系统 |
|
|
模块 |
产生告警的模块 |
|
|
实例ID |
产生告警的实例ID |
|
|
实例名称 |
产生告警的实例名称 |
|
|
实例数据IP |
产生告警的实例的数据浮动IP列表。在没有数据浮动IP时不展示此字段。 |
|
|
工作ID |
产生告警的工作流ID |
|
|
附加信息
|
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
对系统的影响
主实例和灾备实例的RPO默认10s, RTO默认600s,超出阈值大小对容灾可靠性有影响。
可能原因
- 当前的主/灾备实例状态异常。
- 主Region实例或备Region实例节点替换后没有刷新容灾集群信息。
处理步骤
- 使用浏览器,以VDC管理员或VDC业务员账号登录ManageOne。
非B2B场景登录地址:https://ManageOne运营面的访问地址。例如,https://console.demo.com。
B2B场景登录地址:https://ManageOne租户面的访问地址。例如,https://tenant.demo.com。
统一用户登录地址:https://ManageOne主门户的访问地址。例如,https://console.demo.com/moserviceaccesswebsite/unifyportal#/home。在首页选择“云服务自助中心”进入运营面。
- 在页面左上角单击
,选择 - 单击“容灾管理”进入容灾管理页面。
- 单击告警实例关联的容灾任务名称,可以看到当前容灾关系的RPO、RTO信息,检查当前容灾RPO、RTO是否超过阈值。
- 针对RTO RPO超出阈值,可按照以下步骤进行排查。
- 排查主备实例是否进行过节点替换,如果进行过节点替换,参考《云数据库 GaussDB 24.1.30 流容灾最佳实践 (for 华为云Stack 8.3.1)》中的“容灾期间,节点替换后刷新集群信息”章节刷新集群信息。
- 在“告警 > 告警管理 > 当前告警”中查看告警信息,获取告警中的实例ID,参考登录实例节点,登录实例任一节点。
- 执行如下命令,导入环境变量。
- 执行如下指令,检查集群状态。
![]()
如果当前集群状态异常,参考如下步骤修复集群。
- 进入“实例运维 > 通用表操作”页面,根据实例ID搜索实例Action:其中Action状态为 “OK_TO_RUN”,Action类型包含 “DISASTER_RELATION”字眼。
- 单击“切换状态”,切换实例Action状态,并记录切换过的Action。
- 根据异常组件类型,参考告警 ALM-5012947 云数据库 GaussDB ETCD服务异常 – ALM-5012951 云数据库 GaussDB DN服务异常进行修复。
- 待集群修复完成后,再次切换实例Action:切换的Action为记录的Action。
- 业务压力过大也会导致RPO和RTO超阈值。如因业务压力过大所致的异常,当业务压力降低时,会自动追平,告警自动消除。
如果仍然无法解决问题,请执行7。
- 如果发现主集群CN被踢除,且RPO超阈值,参考如下步骤处理。
- 参考登录实例节点,登录容灾主实例节点。
- 执行如下命令,导入环境变量
- 执行如下指令,检查主集群状态。
![]()
- 参考登录实例节点,登录灾备集群节点。
- 执行如下命令,导入环境变量
- 执行如下指令,检查灾备集群状态。
![]()
如图所示,CN状态为“disconnected”的即为需要停止的CN节点。
- 执行如下命令,停止灾备实例相关CN节点。
cm_ctl stop -n NODEID -D DATADIR
NODEID需要替换为状态为“disconnected”的CN ID,DATADIR需要替换为CN节点的目录。
停止灾备实例CN后RPO可恢复。
- 等主实例具有容灾关系的CN修复后,可执行如下命令重启灾备实例对应的CN。
cm_ctl start -n NODEID -D DATADIR
NODEID需要替换为已经停止的CN ID,DATADIR需要替换为CN节点的目录。
- 参考收集日志,下载节点日志,并收集告警信息、日志信息和配置信息,联系技术支持进行处理。
需要下载的日志路径如下:
Agent组件下的:
- /home/Ruby/log/agent.log
- /home/Ruby/log/asyncJobResult.dat
GaussDB Kernel组件下的:/var/lib/log/Ruby
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
,选择



浙公网安备 33010602011771号