yuan-er

导航

 

ALM-5014998 云数据库 GaussDB内核告警

告警解释

数据库实例内核发现异常情况,产生此告警。具体告警处理流程需结合《GaussDB 内核告警补充说明》处理。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5014998

重要

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

类别

参数名称

参数含义

定位信息

 

 

 

 

云服务

产生告警的云服务

instanceId

产生告警的实例ID

nodeId

产生告警的数据库节点ID

{id:xxxx, name:xxxx, detail:xxxx, level:xxxx}

id:内核告警ID

name:内核告警名称

detail:内核告警描述

level:内核告警级别

附加信息

 

 

 

 

 

 

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

其中针对表1展示的内核告警,以独立事件告警的形式上报,且不会自动恢复。处理完告警后,需要在“告警 > 告警管理 > 当前告警”页面,选中告警,单击页面上“清除”,手动清除该条告警。

其他告警信息汇聚成一条云数据库 GaussDB内核告警,该条告警可能包含多个内核告警,仅当所有内核告警全部修复时,该条告警才会自动清除。

表1 内核告警

内核告警名称

告警名

DatanodeSwitchOver

云数据库GaussDB DN主备切换事件告警

DatanodeFailOver

云数据库GaussDB DN失效切换事件告警

GTMSwitchOver

云数据库GaussDB GTM主备切换事件告警

GTMFailOver

云数据库GaussDB GTM失效切换事件告警

ServerSwitchOver

云数据库GaussDB CM_SERVER实例发生主备切换事件告警

BuildEvent

云数据库GaussDB 触发DN build事件告警

ForceFinishRedo

云数据库GaussDB Datanode强制停止Redo事件告警

CustomResourceError

云数据库GaussDB 自定义资源故障告警

对系统的影响

云数据库 GaussDB 内核告警配置了30+种场景的异常告警,系统影响情况不同,根据告警信息中的“name”字段,来区分具体的内核告警内容,并参考定位信息结合《GaussDB 内核告警补充说明》处理。

可能原因

详细告警信息以《GaussDB 内核告警补充说明》为准。

处理步骤

根据告警的定位信息描述,根据告警定位信息中的“name”字段,来区分具体的内核告警内容,参考《GaussDB 内核告警补充说明》处理告警。name对应的具体内核告警对应表如下所示。

表2 告警信息

name列内容

内核告警信息

告警项

AbnormalGTMInst

ALM_AI_AbnormalGTMInst

GTM实例异常。

AbnormalDatanodeInst

ALM_AI_AbnormalDatanodeInst

DN实例异常。

AbnormalGTMProcess

ALM_AI_AbnormalGTMProcess

GTM进程异常。

AbnormalCoordinatorProcess

ALM_AI_AbnormalCoordinatorProcess

Coordinator进程异常。

AbnormalDatanodeProcess

ALM_AI_AbnormalDatanodeProcess

DN进程异常。

DatanodeSwitchOver

ALM_AI_DatanodeSwitchOver

DN主备切换。

DatanodeFailOver

ALM_AI_DatanodeFailOver

DN失效切换。

GTMSwitchOver

ALM_AI_GTMSwitchOver

GTM主备切换。

GTMFailOver

ALM_AI_GTMFailOver

GTM失效切换。

AbnormalGTMSocket

ALM_AI_AbnormalGTMSocket

GTM实例SOCKET异常。

TransactionReadOnly

ALM_AI_TransactionReadOnly

数据库只读。

UnbalancedCluster

ALM_AI_UnbalancedCluster

集群平衡状态异常

AbnormalCMAProcess

ALM_AI_AbnormalCMAProcess

CM_AGENT进程异常。

AbnormalCMSProcess

ALM_AI_AbnormalCMSProcess

CM_SERVER进程异常。

AbnormalCmaConnFail

ALM_AI_AbnormalCmaConnFail

CM_AGENT连接数据库服务失败。

AbnormalPhonyDead

ALM_AI_AbnormalPhonyDead

DN实例、GTM实例、CN实例出现假死异常。

AbnormalETCDProcess

ALM_AI_AbnormalETCDProcess

ETCD进程异常。

AbnormalEtcdUnhealth

ALM_AI_AbnormalEtcdUnhealth

ETCD集群不健康。

AbnormalEtcdDown

ALM_AI_AbnormalEtcdDown

ETCD异常。

AbnormalDataInstDisk

ALM_AI_AbnormalDataInstDisk

DN实例磁盘异常。

AbnormalBuildFail

ALM_AI_AbnormalBuildFail

DN实例build失败。

BuildEvent

ALM_AI_BuildEvent

DN实例进行build。

ServerSwitchOver

ALM_AI_ServerSwitchOver

Server主备切换。

AbnormalEtcdNearQuota

ALM_AI_AbnormalEtcdNearQuota

ETCD磁盘数据文件过大。

StorageDilatationAlarmNotice

ALM_AI_StorageDilatationAlarmNotice

数据扩容接近配额。

StorageDilatationAlarmMajor

ALM_AI_StorageDilatationAlarmMajor

数据扩容已达配额。

StorageThresholdPreAlarm

ALM_AI_StorageThresholdPreAlarm

磁盘空间接近配额。

ForceFinishRedo

ALM_AI_ForceFinishRedo

强制停止Redo。

PgxcNodeMismatch

ALM_AI_PgxcNodeMismatch

CN系统表不一致。

StreamingDisasterRecoveryCnDisconnected

ALM_AI_StreamingDisasterRecoveryCnDisconnected

流式容灾CN断连。

StreamingDisasterRecoveryDnDisconnected

ALM_AI_StreamingDisasterRecoveryDnDisconnected

流式容灾DN断连。

CmsCnDrop

ALM_AI_CmsCnDrop

CN剔除。

CmsCnRepair

ALM_AI_CmsCnRepair

CN加回。

CnBuildEvent

ALM_AI_CnBuildEvent

CN加回build。

AbnormalProcess

ALM_AI_AbnormalProcess

进程长时间异常。

CusResInstErr

ALM_AI_CusResInstErr

自定义资源故障。

告警清除

此告警修复后,需要在当前告警页面手工清除此告警。

参考信息

不涉及。

posted on 2024-09-20 10:49  数据库笔记  阅读(38)  评论(0)    收藏  举报