ALM-5101336 Ops巡检-crond进程状态异常
告警解释
DBS运维管理平台提供指标监控能力,监测到Linux内置任务调度服务crond状态不为active时,或者/etc/crontab中不存在该定时任务/dbs/monitorAgent/crontab_monitor.sh时,产生该告警。
告警属性
|
5101336 |
巡检配置 |
业务质量告警 |
租户面 |
云数据库 GaussDB 节点 |
是 |
告警参数
|
定位信息 |
云服务 |
产生告警的云服务 |
|
实例ID |
产生告警的实例ID |
|
|
节点ID |
产生告警的节点ID |
|
|
巡检名称 |
产生告警的巡检名称 |
|
|
指标编码 |
产生告警的指标编码 |
|
|
附加信息 |
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
租户ID |
产生告警的租户ID |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
|
|
节点角色 |
产生告警节点的节点角色 |
|
|
指标编码 |
产生告警节点的指标编码 |
|
|
指标采集值 |
产生告警节点的指标采集值 |
|
|
指标阈值 |
产生告警节点的指标阈值 |
对系统的影响
如果有持续告警时,会影响定时任务的调度,一些定时任务检查进程是否存活等机制会失效。
可能原因
- 手动停止了crond进程。
- crond进程异常退出并且启动失败。
处理步骤
- 在告警信息中获取nodeId,通过登录实例节点操作,登录上节点。切换root用户,执行systemctl is-active crond。
- 如果为active,表明功能已经恢复正常,无需进行下步操作。
- 如果不为active,执行2。
- root用户执行 cat /etc/crontab,查看是否有/dbs/monitorAgent/crontab_monitor.sh 这条记录。 获取上图选中的内容:*/1 * * * * Ruby /bin/bash /dbs/monitorAgent/crontab_monitor.sh
- root用户执行 vim /etc/crontab,把2获取的内容新增到文件中。然后执行 service cron reload 刷新 crond 服务,让其加载新修改的配置。
- 等待5分钟后查看告警是否还存在。
- root用户执行systemctl status crond.service命令来查看crond服务现在的状态和之前的异常堆栈。
- root用户尝试执行systemctl restart crond.service命令来启动crond服务。如果启动失败,涉及BMS、欧拉,或者麒麟操作系统问题,请联系技术支持。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html
浙公网安备 33010602011771号