GaussDB集群故障根因诊断

GaussDB集群故障根因诊断

在现网业务中需要对发生的故障原因进行快速定位定界,集群故障根因诊断功能可以通过收集数据库集群中各个组件(如CMS、DN)等的信息和即时状态(如网络连通性),来判断集群环境是否存在故障,以及故障根因。可用于实现集群级别的故障根因诊断。

自治运维服务支持CN、DN、CMS等节点日志采集,以及支持基于节点间网络连通(如ping)状态采集。经过故障场景分析和梳理,并对数据集进行枚举扩充,最终实现DN、CN故障快速定位。

集群故障根因诊断的设计和交互图如下:

在这里插入图片描述
自治运维服务通过采集各个组件(如DN、CN、CMS等)的关键日志信息,以及即时状态信息(如网络连通状态),构建集群状态特征,然后,根据DBMind预置的根因模型库,对问题根因进行判断。对于日志信息的采集对日志格式有一定要求,当日志格式发生变化时,需要代码同步更新以实现采集。下表中的“包含关键词”列即为采集日志所使用的正则匹配格式。

其中,DN组件故障场景特征与根因分别下表所示:

在这里插入图片描述
DN根因和特征的关系流程图如下:

在这里插入图片描述
DN故障诊断部分特征和根因对应关系如下表,对于日志类特征,0代表对应日志不包含关键字,1代表对应日志包含关键字,对于其他非日志类特征,0代表否,1代表是,最后不同标签数值代表不同的根因。如下表为DN组件特征与根因对应关系示例:

在这里插入图片描述
通过上述根因和特性之间关联,利用决策树模型,根据故障日志信息,快速获取故障根因,方便运维人员及时进行故障排除。

posted @ 2025-02-18 10:04  喜酱喜酱  阅读(3)  评论(0)    收藏  举报