GaussDB-故障处理流程

GaussDB-故障处理流程

  1. 处理重大故障前,请先联系技术支持,技术支持会协助您处理故障。
  2. 在故障处理过程中,维护人员可能需要执行修改配置数据、重启虚拟机等重大操作,为确保数据安全,应该提前保存现场数据,备份相关数据库、告警信息和日志文件等。
    图1 故障处理流程图

故障信息收集

故障信息是故障处理的重要依据,系统维护人员应尽可能多的收集故障信息。

故障判断

在获取故障信息后,需要对故障现象作出判断,确定故障的范围与种类。

为方便用户使用,本手册完全基于故障现象进行分类,主要类型如下:

  • 操作系统故障:DBS-GaussDB-open-api、DBS-GaussDB-instancemanager等服务所在的物理机连接失败,响应慢。
  • 网络故障:关键服务之间网络无法互通、网络中断、网络质量差。
  • 业务类故障:
    • 实例管理故障:用户无法创建实例、删除实例及扩容。
    • 备份恢复故障:用户无法对实例进行备份和恢复。
    • 实例主备故障:HA模式下,备机升主失败。
  • 关键服务故障:
    • DBS-gaussdb-console服务故障:用户无法跳转到DBS-gaussdb-console页面。
    • 实例管理服务故障:实例管理服务无响应、进程假死等。

故障定位

故障定位就是从众多可能原因中找出故障原因的过程。通过一定方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。

关键服务故障定位

此类故障的原因相对简单,同时会有服务日志、告警、错误提示和监控状态等信息。用户根据关键服务日志信息、告警处理建议、错误提示、进程重新启动等,一般就能定位故障。

业务类故障定位

  • 实例管理故障,一般是通过DBS-GaussDB-instancemanager查询到实例创建、删除的状态,根据DBS-GaussDB-instancemanager日志打印信息定位出故障的原因。
  • 备份恢复故障,一般先排查SFTP是否已连接,再查看实例面是否可以访问,如有实例访问类故障,先按照实例访问故障进行排查,然后再查看DBS-GaussDB-backupmanager日志信息定位。
  • 实例主备故障,HA模式下,如果是备机升主机失败或者备机升主机后无法访问,请先查看相同引擎的主备机的配置项是否相同,如果不相同,查看具体配置项是否会导致故障。

故障排除

定位故障原因后,需要进行故障排除。故障排除是指采取适当的措施或步骤清除故障、恢复系统的过程。如检查进程状态、查看日志、修改相关配置文件和重启服务等。

根据不同的故障按照不同的操作规程操作,进行故障排除。

确认故障是否被排除

故障排除之后要注意进行检测,以确保故障彻底被排除。

通过查看日志、重复引发故障发生的动作和告警等方法确认系统已正常运行,并进行功能测试,以确保故障排除,业务正常。

记录故障处理过程

故障排除后应回顾故障处理全过程,记录故障处理要点,给出针对此类故障的防范和改进措施,避免同类故障再次发生。

当系统维护人员无法自行排除故障时,请联系技术支持。

 
posted @ 2024-11-18 14:42  jerrywang1983  阅读(73)  评论(0)    收藏  举报