ALM-5101269 Ops巡检-watchdog进程状态异常
告警解释
DBS运维管理平台提供指标监控能力,监测到上报信息给HA的watchdog进程不存在,产生此告警。
告警属性
|
5101269 |
巡检配置 |
业务质量告警 |
租户面 |
云数据库 GaussDB 节点 |
是 |
告警参数
|
定位信息 |
云服务 |
产生告警的云服务 |
|
实例ID |
产生告警的实例ID |
|
|
节点ID |
产生告警的节点ID |
|
|
巡检名称 |
产生告警的巡检名称 |
|
|
指标编码 |
产生告警的指标编码 |
|
|
附加信息 |
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
租户ID |
产生告警的租户ID |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
|
|
节点角色 |
产生告警节点的节点角色 |
|
|
指标编码 |
产生告警节点的指标编码 |
|
|
指标采集值 |
产生告警节点的指标采集值 |
|
|
指标阈值 |
产生告警节点的指标阈值 |
对系统的影响
如果有持续告警时,会造成Agent无法上报集群信息,磁盘信息,网卡信息等信息给HA,对数据库集群的高可用和告警会有一定影响。
可能原因
- agent_monitor进程因某种原因阻塞住了,或者报错退出并且启动失败了,因此无法拉起watchdog进程。
- watchdog进程报错退出并且启动失败。
处理步骤
- 在告警信息中获取nodeId,通过登录实例节点操作,登录节点。
- 执行 ps -ef | grep python 查看有无agent_monitor进程,如下图所示。
- 执行 vim /home/Ruby/log/agent_process_monitor.log 查看agent_monitor进程的日志,查看是否有试图拉起watchdog进程。如果存在异常无法拉起(如图,但图中的异常仅是个示例,并不代表实际情况),请联系技术支持。
- 如果agent_monitor进程不存在,则参考ALM-5101270 Ops巡检-agentmonitor进程状态异常的处理步骤。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html
浙公网安备 33010602011771号