yuan-er

导航

 

ALM-5101267 Ops巡检-om_monitor进程状态异常

告警解释

DBS运维管理平台提供指标监控能力,监测到om_monitor进程不存在时,产生此告警。

告警属性

5101267

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

如果有持续告警,此时om_monitor进程无法监控om_agent是否存活,无法感知om_agent相关进程状态。

可能原因

  • om_monitor进程报错退出并且启动失败。
  • /etc/crontab 中缺少如下定时任务:/usr/sbin/chroot /var/chroot /bin/bash -c '/bin/env LD_LIBRARY_PATH="/usr/local/app/lib: /usr/local/app/add-ons" >>/dev/null && source /etc/profile && source ~/.bashrc && source /etc/profile;(if [ -f ~/.profile ];then source ~/.profile;fi);source ~/.bashrc;source /home/Ruby/gauss_env_file; nohup /usr/local/core/app/bin/om_monitor -L /var/lib/engine/data1/log/Ruby/cm/om_monitor >>/dev/null 2>&1 &'

处理步骤

  1. 登录实例节点,切换root用户。
  2. 使用root用户执行cat /etc/crontab,查看是否存在以下配置信息 :/usr/sbin/chroot /var/chroot /bin/bash -c '/bin/env LD_LIBRARY_PATH="/usr/local/app/lib: /usr/local/app/add-ons" >>/dev/null && source /etc/profile && source ~/.bashrc && source /etc/profile;(if [ -f ~/.profile ];then source ~/.profile;fi);source ~/.bashrc;source /home/Ruby/gauss_env_file; nohup /usr/local/core/app/bin/om_monitor -L /var/lib/engine/data1/log/Ruby/cm/om_monitor >>/dev/null 2>&1 &'
    • 配置信息不存在,执行3
    • 配置信息存在,执行4
  3. 使用root用户执行vim /etc/crontab
    1. 2中图片选中的信息添加至/etc/crontab:*/1 * * * * Ruby /usr/sbin/chroot /var/chroot /bin/bash -c '/bin/env LD_LIBRARY_PATH="/usr/local/app/lib: /usr/local/app/add-ons" >>/dev/null && source /etc/profile && source ~/.bashrc && source /etc/profile;(if [ -f ~/.profile ];then source ~/.profile;fi);source ~/.bashrc;source /home/Ruby/gauss_env_file; nohup /usr/local/core/app/bin/om_monitor -L /var/lib/engine/data1/log/Ruby/cm/om_monitor >>/dev/null 2>&1 &'
    2. 执行 service cron reload 刷新crond服务,让其加载新修改的配置。
    3. 等待2秒再执行 ps -ef | grep om看 om_monitor 进程是否存在。
    4. 如果进程不存在,请执行4
  4. 联系技术支持

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html

posted on 2024-10-23 14:51  数据库笔记  阅读(10)  评论(0)    收藏  举报