alertmanager的使用
一、Alertmanager的安装
1 下载
2.安装
3.启动
4.与prometheus整合
修改prometheus.yml配置文件
alerting: alertmanagers: - static_configs: - targets: - 127.0.0.1:9082 # alertmanager的地址
二、告警分组
分组机制可以将某一类型的告警信息合并成一个大的告警信息,避免发送太多的告警邮件。
比如:我们有3台服务器都介入了Prometheus,这3台服务器同时宕机了,那么如果不分组可能会发送3个告警信息,如果分组了,那么会合并成一个大的告警信息。
1、告警规则
监控服务器宕机的时间超过1分钟就发送告警邮件。
groups: - name: Test-Group-001 # 组的名字,在这个文件中必须要唯一 rules: - alert: InstanceDown # 告警的名字,在组中需要唯一 expr: up == 0 # 表达式, 执行结果为true: 表示需要告警 for: 1m # 超过多少时间才认为需要告警(即up==0需要持续的时间) labels: severity: warning # 定义标签 annotations: summary: "服务 {{ $labels.instance }} 下线了" description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."
2. alertmanager.yml配置
global: resolve_timeout: 5m # 整合qq邮件 smtp_smarthost: 'smtp.qq.com:465' smtp_from: '1451578387@qq.com' smtp_auth_username: '1451578387@qq.com' smtp_auth_identity: 'xxxxxx' smtp_auth_password: 'xxxxxx' smtp_require_tls: false # 路由 route: group_by: ['alertname'] # 根据什么分组,此处配置的是根据告警的名字分组,没有指定 group_by 貌似是根据规则文件的 groups[n].name 来分组的。 group_wait: 10s # 当产生一个新分组时,告警信息需要等到 group_wait 才可以发送出去。 group_interval: 10s # 如果上次告警信息发送成功,此时又来了一个新的告警数据,则需要等待 group_interval 才可以发送出去 repeat_interval: 120s # 如果上次告警信息发送成功,且问题没有解决,则等待 repeat_interval 再次发送告警数据 receiver: 'email' # 告警的接收者,需要和 receivers[n].name 的值一致。 receivers: - name: 'email' email_configs: - to: '1451578387@qq.com'
3. 分组相关的alertmanager的配置
route: group_by: ['alertname'] group_wait: 10s group_interval: 10s repeat_interval: 120s
三、告警抑制
指的是当某类告警产生的时候,于此相关的别的告警就不用发送告警信息了。
比如:我们对某台机器的CPU的使用率进行了监控,比如 使用到 80% 和 90% 都进行了监控,那么我们可能想如果CPU使用率达到了90%就不要发送80%的邮件了。
1、告警规则
如果 cpu 在5分钟的使用率超过 80% 则产生告警信息。
如果 cpu 在5分钟的使用率超过 90% 则产生告警信息
groups: - name: Cpu rules: - alert: Cpu01 expr: "(1 - avg(irate(node_cpu_seconds_total{mode='idle'}[5m])) by (instance,job)) * 100 > 80" for: 1m labels: severity: info # 自定一个一个标签 info 级别 annotations: summary: "服务 {{ $labels.instance }} cpu 使用率过高" description: "{{ $labels.instance }} of job {{ $labels.job }} 的 cpu 在过去5分钟内使用过高,cpu 使用率 {{humanize $value}}." - alert: Cpu02 expr: "(1 - avg(irate(node_cpu_seconds_total{mode='idle'}[5m])) by (instance,job)) * 100 > 90" for: 1m labels: severity: warning # 自定一个一个标签 warning 级别 annotations: summary: "服务 {{ $labels.instance }} cpu 使用率过高" description: "{{ $labels.instance }} of job {{ $labels.job }} 的 cpu 在过去5分钟内使用过高,cpu 使用率 {{humanize $value}}."
2. lertmanager.yml 配置抑制规则
抑制规则:
如果 告警的名称 alertname = Cpu02 并且 告警级别 severity = warning ,那么抑制住 新的告警信息中 标签为 severity = info 的告警数据。并且源告警和目标告警数据的 instance 标签的值必须相等。# 抑制规则,减少告警数据 inhibit_rules: - source_match: # 匹配当前告警规则后,抑制住target_match的告警规则 alertname: Cpu02 # 标签的告警名称是 Cpu02 severity: warning # 自定义的告警级别是 warning target_match: # 被抑制的告警规则 severity: info # 抑制住的告警级别 equal: - instance # source 和 target 告警数据中,instance的标签对应的值需要相等。
比如:我们系统某段时间进行停机维护,由此可能会产生一堆的告警信息,但是这个时候的告警信息是没有意义的,就可以配置静默规则过滤掉。
1、配置静默规则
需要在 alertmanager 的控制台,或通过 amtool 来操作。


经过上述的配置,就收不到告警信息了。
五、告警路由
1、altermanager.yml配置文件的编写
global: resolve_timeout: 5m smtp_smarthost: 'smtp.qq.com:465' smtp_from: '145xxx8387@qq.com' smtp_auth_username: '1451578387@qq.com' smtp_auth_identity: 'xxxxx' smtp_auth_password: 'xxxxx' smtp_require_tls: false # 根路由,不能存在 match和match_re,任何告警数据没有匹配到路由时,将会由此根路由进行处理。 route: group_by: ['job'] group_wait: 10s group_interval: 10s repeat_interval: 120s receiver: 'default-receiver' routes: - match_re: alertname: 'Cpu.*' # 如果告警的名字是以 Cpu 开头的发给 receiver-01 receiver: 'receiver-01' - match: alertname: 'InstanceDown' # 如果告警的名字是 InstanceDown 则发送给 receiver-02 receiver: 'receiver-02' group_by: ['instance'] # 根据 instance 标签分组 continue: true # 为true则还需要去匹配子路由。 routes: - match: alertname: 'InstanceDown' # 如果告警的名字是 InstanceDown 则还是需要发送给 receiver-03 receiver: 'receiver-03' # 定义4个接收人(接收组等等) receivers: - name: 'default-receiver' email_configs: - to: '145xxx8387@qq.com' send_resolved: true - name: 'receiver-01' email_configs: - to: '2469xxx193@qq.com' send_resolved: true - name: 'receiver-02' email_configs: - to: 'weixin145xxx8387@163.com' send_resolved: true - name: 'receiver-03' email_configs: - to: 'it_xxx_software@163.com' send_resolved: true inhibit_rules: - source_match: alertname: Cpu02 severity: warning target_match: severity: info equal: - instance
告警结果:
1、告警名称中存在 Cpu 的发送给 `receiver-01`(2469xxx193@qq.com) 2、告警名称是 InstanceDown 的需要发送给 `receiver-02 和 receiver-03`(weixin145xxx8387@163.com和it_xxx_software@163.com) 3、需要注意一下路由中的 `continue`参数,为 `true`,则需要在继续匹配子路由,为`false`:不在匹配它下方的子路由了。
告警信息没有匹配到任务路由时,则由根路由(route)进行处理。
访问url https://www.prometheus.io/webtools/alerting/routing-tree-editor/ 查看告警树。
2. 路由匹配
告警数据 从最顶级的route进入路由树,根路由需要匹配所有的告警数据,不可以设置match和match_re
每个路由下,有自己的子路由。比如:某个告警,如果级别普通,则通知给用户A,如果过段时间还未恢复,变y严重了,则需要通知给张三和李四,那么可以通过子路由实现。
默认情况下,告警从 根路由 进入之后,会遍历它下方的所有的子路由,
如果 route 中的 `continue = false`,那么在匹配到第一个符合的路由之后就停止匹配了。 如果 `continue = true`那么会继续进行匹配。 如果所有的都没有匹配到,那么走 根路由。
六、自定义邮件模板
1. 定义告警模板
cat email.template.tmpl
{{ define "email.template.tmpl" }}
{{- if gt (len .Alerts.Firing) 0 -}}{{ range.Alerts }}
告警名称: {{ .Labels.alertname }} <br>
实例名: {{ .Labels.instance }} <br>
摘要: {{ .Annotations.summary }} <br>
详情: {{ .Annotations.description }} <br>
级别: {{ .Labels.severity }} <br>
开始时间: {{ (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}<br>
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++<br>
{{ end }}{{ end -}}
{{- if gt (len .Alerts.Resolved) 0 -}}{{ range.Alerts }}
Resolved-告警恢复了。<br>
告警名称: {{ .Labels.alertname }} <br>
实例名: {{ .Labels.instance }} <br>
摘要: {{ .Annotations.summary }} <br>
详情: {{ .Annotations.description }} <br>
级别: {{ .Labels.severity }} <br>
开始时间: {{ (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}<br>
恢复时间: {{ (.EndsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}<br>
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++<br>
{{ end }}{{ end -}}
{{- end }}
2. 修改alertmanager.yml 配置文件
1. 加载告警模板的位置
global: resolve_timeout: 5m templates: - '/Users/huan/soft/prometheus/alertmanager-0.21.0/templates/*.tmpl'
配置templates选项
2. 接收人使用邮件模板
receivers: - name: 'default-receiver' email_configs: - to: 'it_xxx_software@163.com' send_resolved: true html: '{{template "email.template.tmpl" . }}'
注意:
html: '{{template "email.template.tmpl" . }}' 中的 template 中的值为 {{ define "email.template.tmpl" }} 中的值。

浙公网安备 33010602011771号