yuan-er

导航

 

ALM-5101336 Ops巡检-crond进程状态异常

告警解释

DBS运维管理平台提供指标监控能力,监测到Linux内置任务调度服务crond状态不为active时,或者/etc/crontab中不存在该定时任务/dbs/monitorAgent/crontab_monitor.sh时,产生该告警。

告警属性

5101336

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

如果有持续告警时,会影响定时任务的调度,一些定时任务检查进程是否存活等机制会失效。

可能原因

  • 手动停止了crond进程。
  • crond进程异常退出并且启动失败。

处理步骤

  1. 在告警信息中获取nodeId,通过登录实例节点操作,登录上节点。切换root用户,执行systemctl is-active crond。
    • 如果为active,表明功能已经恢复正常,无需进行下步操作。
    • 如果不为active,执行2
  2. root用户执行 cat /etc/crontab,查看是否有/dbs/monitorAgent/crontab_monitor.sh 这条记录。
    • 无记录,执行3
    • 有记录,执行4
    获取上图选中的内容:*/1 * * * * Ruby /bin/bash /dbs/monitorAgent/crontab_monitor.sh
  3. root用户执行 vim /etc/crontab,把2获取的内容新增到文件中。然后执行 service cron reload 刷新 crond 服务,让其加载新修改的配置。
  4. 等待5分钟后查看告警是否还存在。
  5. root用户执行systemctl status crond.service命令来查看crond服务现在的状态和之前的异常堆栈。
  6. root用户尝试执行systemctl restart crond.service命令来启动crond服务。如果启动失败,涉及BMS、欧拉,或者麒麟操作系统问题,请联系技术支持

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html

posted on 2024-10-23 15:11  数据库笔记  阅读(3)  评论(0)    收藏  举报