AZ故障操作
操作场景
多数派AZ发生故障时,无法实现自动切换,实例不可用。可通过AZ强启和AZ加回恢复实例。实例状态正常后,可通过AZ切换将业务重新切回到原主AZ上。
- AZ强启:多数派AZ发生故障时,由于少数派(存活AZ中的ETCD数量小于总ETCD数量的二分之一)无法实现自动切换,实例不可用。此时需要强启少数派AZ保证实例可对外提供服务,使业务运行尽快恢复。
- AZ加回:当故障AZ修复后,对于已经执行过AZ强启的实例进行加回操作,重新将除了已经强启的AZ以外的其他AZ加回到实例。
- AZ切换:切换所选AZ为实例主AZ。该功能使用期间需要暂停业务,请谨慎触发。
- AZ:Available Zone,可用分区。
- 多数派:AZ中的ETCD数量大于总ETCD数量的二分之一,例如一个3AZ实例,每个AZ的ETCD数量都为1,任意两个AZ即可视为多数派。
前提条件
仅实例节点分布在多个AZ可用区时,才具备该功能。
AZ强启
注意事项:
- 少数派强启命令属于高危操作,必须是满足多数派所有节点同时故障的情况下才能进行强启操作,即:少数派强启之前,一定要确认好强启AZ是否一直是数据库实例内唯一一个没有故障的AZ,而不是先故障的AZ。
- 强启和加回过程中,需要将业务停止。少数派强启需要当前强启AZ内的节点不再有新的故障,否则在多数派故障的情况下再次叠加故障,可能会导致强启无法正常执行。
- 强启和加回是一整套操作。 强启操作完成后,待故障AZ修复后需尽快执行加回操作,否则页面实例显示正常,但执行其他操作会报冲突,如版本升级和重启实例等。
- 强启后,实例运行在降级模式中,不支持扩容、升级、节点修复等工程能力,支持全量备份和差量备份能力。
- 强启后,存活AZ和其他故障AZ间网络恢复前,删除实例可能会失败。
- 执行AZ强启的实例必须为多AZ实例,且只有单AZ存活,存活AZ和其他故障AZ间网络都不通。
- 存活的单AZ不能是仲裁AZ。
- 集中式版3节点(1主2备)、分布式3节点数据库引擎版本不能低于3.0。
操作步骤
- 登录云数据库GaussDB管理平台(TPOPS)。
- 单击左侧目录“实例管理”,进入“实例列表”页面。
- 单击具体实例名称,进入“基本信息”界面。
- 在“配置信息 > 可用区”,单击“AZ故障操作”。
- 操作类型选择“AZ强启”,可用区选择正常的AZ,单击“确定”。
![点击放大]()
AZ加回
注意事项:
- 原实例多AZ部署,AZ加回不需要选择AZ,会自动将原实例的其余AZ加回。
- 需确认加回的AZ已恢复正常,且当前实例的节点状态正常,节点之间网络互通。
操作步骤:
- 登录云数据库GaussDB管理平台(TPOPS)。
- 单击左侧目录“实例管理”,进入“实例列表”页面。
- 单击具体实例名称,进入“基本信息”界面。
- 在“配置信息 > 可用区”,单击“AZ故障操作”。
- 操作类型选择“AZ加回”,单击“确定”。
![点击放大]()
AZ切换
注意事项:
原实例多AZ部署,切换的AZ不能是仲裁AZ。当前实例需存在状态正常的节点。
操作步骤:
- 登录云数据库GaussDB管理平台(TPOPS)。
- 单击左侧目录“实例管理”,进入“实例列表”页面。
- 单击具体实例名称,进入“基本信息”界面。
- 在“配置信息 > 可用区”,单击“AZ故障操作”。
- 操作类型选择“AZ切换”,可用区选择要切为主的AZ,单击“确定”。
![点击放大]()



浙公网安备 33010602011771号