groups:
- name: Rules rules:
      - alert: CPU使用情况
        expr: 100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)* 100) > 60
        for: 1m
        labels: {resType: 'Node',severity: 'warning'}
        annotations:
          summary: "{{$labels.mountpoint}} CPU使用率过高!CPU使用大于60%(目前使用:{{$value}}%)"
          description: "{{$labels.mountpoint }} CPU使用大于60%(目前使用:{{$value}}%)"

      - alert: CPU使用情况
        expr: 100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)* 100) > 80
        for: 1m
        labels: {resType: 'Node',severity: 'critical'}
        annotations:
          summary: "{{$labels.mountpoint}} CPU使用率过高!CPU使用大于60%(目前使用:{{$value}}%)"
          description: "{{$labels.mountpoint }} CPU使用大于60%(目前使用:{{$value}}%)

在rules告警规则中,根据不同的阈值制定不同的告警等级,有三种等级,分别为warning、critical和emergency等级依次递增。

在通过alertmanager告警抑制

inhibit_rules:
  - source_match:  # 高级别告警源
      severity: 'critical'  
    target_match:   # 低级别的告警被抑制不会发送
      severity: 'warning'  
    equal: ['alertname', 'dev', 'instance']  #抑制匹配

这样即可实现,告警升级

posted on 2022-01-21 14:30  属于我的梦,明明还在  阅读(1028)  评论(0)    收藏  举报