groups: - name: Rules rules:
- alert: CPU使用情况
expr: 100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)* 100) > 60
for: 1m
labels: {resType: 'Node',severity: 'warning'}
annotations:
summary: "{{$labels.mountpoint}} CPU使用率过高!CPU使用大于60%(目前使用:{{$value}}%)"
description: "{{$labels.mountpoint }} CPU使用大于60%(目前使用:{{$value}}%)"
- alert: CPU使用情况
expr: 100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)* 100) > 80
for: 1m
labels: {resType: 'Node',severity: 'critical'}
annotations:
summary: "{{$labels.mountpoint}} CPU使用率过高!CPU使用大于60%(目前使用:{{$value}}%)"
description: "{{$labels.mountpoint }} CPU使用大于60%(目前使用:{{$value}}%)
在rules告警规则中,根据不同的阈值制定不同的告警等级,有三种等级,分别为warning、critical和emergency等级依次递增。
在通过alertmanager告警抑制
inhibit_rules:
- source_match: # 高级别告警源
severity: 'critical'
target_match: # 低级别的告警被抑制不会发送
severity: 'warning'
equal: ['alertname', 'dev', 'instance'] #抑制匹配
这样即可实现,告警升级
浙公网安备 33010602011771号