GaussDB-概述
GaussDB-概述
在现网业务中需要对发生的故障原因进行快速定位定界,本功能可以通过收集数据库实例中各个组件(如CMS、DN)等的信息和即时状态(如网络连通性),来判断实例环境是否存在故障,以及故障根因。可用于实现实例级别的故障根因诊断。
DBMind对cmd_exporter进行加强,本版本支持DN、CMS、CMA、ffic、OM_Monitor等日志采集,同时也支持基于节点间网络连通(如ping)状态采集。同时DBMind对现网故障场景进行了梳理,并对数据集进行枚举扩充,最终实现DN故障快速定位。
由于该功能是根据日志来进行诊断的,所以诊断结果中的时间可能因为日志的延迟或者日志的延迟处理,导致诊断结果中的时间晚于故障发生的时间。
|
DN故障根因 |
|---|
|
未知原因/Unknown |
|
实例被停止/DN manual stop |
|
磁盘故障/DN disk Damage |
|
网卡故障/DN NIC down |
|
端口冲突/DN port conflict |
|
CM Server仲裁重启DN/DN restarted by cms |
|
进程僵死重启/DN phony dead |
|
CORE/Core |
|
只读/DN read only |
|
主机断网或宕机/DN down/disconnection |
|
主备DN间网络异常/DN Primary disconnected with Standby |
|
DN IP丢失/DN ip lost |
当cm_ctl query的集群状态输出结果异常时,一般是发生了调用栈输出,这种情况下难以获取集群状态,无法获取集群的诊断结果,相关状态标记为"abnormal_output_from_cm_ctl_query", 诊断结果为Unknown。
当DN节点处于Offline状态时,不对其进行数据库实例故障诊断,返回状态为Normal,状态码-1。

浙公网安备 33010602011771号