GaussDB-故障处理流程
GaussDB-故障处理流程
- 处理重大故障前,请先联系技术支持,技术支持会协助您处理故障。
- 在故障处理过程中,维护人员可能需要执行修改配置数据、重启虚拟机等重大操作,为确保数据安全,应该提前保存现场数据,备份相关数据库、告警信息和日志文件等。
图1 故障处理流程图
![]()
故障信息收集
故障信息是故障处理的重要依据,系统维护人员应尽可能多的收集故障信息。
故障判断
在获取故障信息后,需要对故障现象作出判断,确定故障的范围与种类。
为方便用户使用,本手册完全基于故障现象进行分类,主要类型如下:
- 操作系统故障:DBS-GaussDB-open-api、DBS-GaussDB-instancemanager等服务所在的物理机连接失败,响应慢。
- 网络故障:关键服务之间网络无法互通、网络中断、网络质量差。
- 业务类故障:
- 实例管理故障:用户无法创建实例、删除实例及扩容。
- 备份恢复故障:用户无法对实例进行备份和恢复。
- 实例主备故障:HA模式下,备机升主失败。
- 关键服务故障:
- DBS-gaussdb-console服务故障:用户无法跳转到DBS-gaussdb-console页面。
- 实例管理服务故障:实例管理服务无响应、进程假死等。
故障定位
故障定位就是从众多可能原因中找出故障原因的过程。通过一定方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。
关键服务故障定位
此类故障的原因相对简单,同时会有服务日志、告警、错误提示和监控状态等信息。用户根据关键服务日志信息、告警处理建议、错误提示、进程重新启动等,一般就能定位故障。
业务类故障定位
- 实例管理故障,一般是通过DBS-GaussDB-instancemanager查询到实例创建、删除的状态,根据DBS-GaussDB-instancemanager日志打印信息定位出故障的原因。
- 备份恢复故障,一般先排查SFTP是否已连接,再查看实例面是否可以访问,如有实例访问类故障,先按照实例访问故障进行排查,然后再查看DBS-GaussDB-backupmanager日志信息定位。
- 实例主备故障,HA模式下,如果是备机升主机失败或者备机升主机后无法访问,请先查看相同引擎的主备机的配置项是否相同,如果不相同,查看具体配置项是否会导致故障。
故障排除
定位故障原因后,需要进行故障排除。故障排除是指采取适当的措施或步骤清除故障、恢复系统的过程。如检查进程状态、查看日志、修改相关配置文件和重启服务等。
根据不同的故障按照不同的操作规程操作,进行故障排除。
确认故障是否被排除
故障排除之后要注意进行检测,以确保故障彻底被排除。
通过查看日志、重复引发故障发生的动作和告警等方法确认系统已正常运行,并进行功能测试,以确保故障排除,业务正常。
记录故障处理过程
故障排除后应回顾故障处理全过程,记录故障处理要点,给出针对此类故障的防范和改进措施,避免同类故障再次发生。
当系统维护人员无法自行排除故障时,请联系技术支持。


浙公网安备 33010602011771号