Prometheus 告警升级设置


groups:
- name: Rules
  rules:

      - alert: CPU使用情况
        expr: 100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)* 100) > 60
        for: 1m
        labels: {resType: 'Node',severity: 'warning'}
        annotations:
          summary: "{{$labels.mountpoint}} CPU使用率过高！CPU使用大于60%(目前使用:{{$value}}%)"
          description: "{{$labels.mountpoint }} CPU使用大于60%(目前使用:{{$value}}%)"

      - alert: CPU使用情况
        expr: 100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)* 100) > 80
        for: 1m
        labels: {resType: 'Node',severity: 'critical'}
        annotations:
          summary: "{{$labels.mountpoint}} CPU使用率过高！CPU使用大于60%(目前使用:{{$value}}%)"
          description: "{{$labels.mountpoint }} CPU使用大于60%(目前使用:{{$value}}%)

在rules告警规则中，根据不同的阈值制定不同的告警等级，有三种等级，分别为warning、critical和emergency等级依次递增。

在通过alertmanager告警抑制

inhibit_rules:
  - source_match:  # 高级别告警源
      severity: 'critical'  
    target_match:   # 低级别的告警被抑制不会发送
      severity: 'warning'  
    equal: ['alertname', 'dev', 'instance']  #抑制匹配

这样即可实现，告警升级

posted on 2022-01-21 14:30 属于我的梦，明明还在阅读(1058) 评论(0) 收藏举报