Alertmanager接入钉钉和飞书告警
部署alertmanager
采集的数据除了展示之后,更重要的是数据集异常告警。prometheus体系中告警是alertmanager服务。
部署步骤:
- 准备配置文件
- 更新prometheus
- 启动alertmanager服务
- 告警测试
新建告警服务配置目录 /root/prometheus/alertmanager
创建alertmanager服务配置文件 alertmanager.yaml
参数解释:
| 参数 | 解释 |
|---|---|
| resolve_timeout: 5m | 持续5分钟没收到告警信息后认为问题已解决 |
| route | 定义告警路由规则,可以定义多个receiver和group实现告警分组 |
| group_by: ['instance'] | 分组,处于同一组的告警会被合并为同一个通知。这里设置的是instance相同的告警会被合并为同一个通知 |
| group_wait: 30s | 30秒是个时间窗口,这个窗口内,同一个分组的所有消息会被合并为同一个通知 |
| group_interval: 60s | 同一个分组发送一次合并消息之后,每隔1分钟检查一次告警,判断是否要继续对此告警做操作 |
| repeat_interval: 5m | 发送报警间隔,如果指定时间内没有修复,则重新发送报警 |
| receiver: 'web.hook.prometheusalert' | 告警接受者,具体信息将在receivers区域中配置 |
注意:这里receiver配置了一个无效的webhook,所以alertmanager可以收到告警,但是暂时发送不出去。
将alertmanager集成到prometheus中,分为两步走:
- 新建告警规则文件rules.yml
- 更新prometheus.yml新增alertmanager相关配置
在 /root/prometheus/ptometheus/config 目录下新增告警规则文件 rules.yml,用于给prometheus服务触发告警的规则。
rules.yaml
该规则用于测试,当一个实例up状态为0超过30s就产生一个告警,告警的内容就是annotations中的description, 例如:服务器node01宕机。更多告警规则自行选择。
修改prometheus.yml相关的配置,新增告警服务和告警规则文件
在docker-compose.yaml中新增alertmanager服务
重启docker-compose
登录 172.16.9.124:9093 可以看到告警服务正常启动
登录prometheus web页面,点击菜单Alerts,可以看到所有的告警规则以及触发状态。当前告警处于非active的状态。
触发一个告警规则,当一个node-exporter 停止30s就是触发告警规则。关闭node01 的 node-exporter
查看prometheus服务的页面,30s之后报警处于等待状态
到这里告警就部署完成了,因为没有给告警receiver配置可用的webhook,所以告警消息能收到但不能发送出去。下一步就部署能将告警消息发送到各个终端的服务 prometheusAlert。
alertmanager 是告警处理模块,但是告警消息的发送方法并不丰富。如果需要将告警接入飞书,钉钉,微信等,还需要有相应的SDK适配。prometheusAlert就是这样的SDK,可以将告警消息发送到各种终端上。
prometheus Alert 是开源的运维告警中心消息转发系统,支持主流的监控系统 prometheus,日志系统 Graylog 和数据可视化系统 Grafana 发出的预警消息。通知渠道支持钉钉、微信、华为云短信、腾讯云短信、腾讯云电话、阿里云短信、阿里云电话等。
部署prometheusAlert相关步骤:
- 创建飞书机器人
- 准备配置文件
- 启动 prometheusAlert服务
- 对接告警服务
- 调试告警模板
添加自定义关键词,后续在发送的告警消息中一定要包含该关键字,如果没有飞书机器人会丢掉消息。
拿到最重要的webhook地址,后面作为告警地址使用
https://open.feishu.cn/open-apis/bot/v2/hook/b56175a-eb8e-4498-b5a-0b712c0a3d4f
不要尝试使用这个webhook,当你能看到的时候,该webhook已经失效了😌。
新建目录 /root/prometheus/prometheus-alert/db用于保存prometheusAlert的数据库文件,当服务重新部署时不会丢失配置信息。
docker-compose.yml 中新增prometheus-alert服务
参数解释:
- PA_LOGIN_USER=alertuser 登录账号
- PA_LOGIN_PASSWORD=123456 登录密码
- PA_TITLE=prometheusAlert 系统title
- PA_OPEN_FEISHU=1 开启飞书支持
- PA_OPEN_DINGDING=0 开启钉钉支持
- PA_OPEN_WEIXIN=1 开启微信支持
- /root/prometheus/prometheus-alert/db 将数据库映射出来
重启服务
查看服务启动状态
prometheusAlert到这了就部署完成了,目前只是部署好该服务,还没有将服务器接入到告警消息流中。
prometheusAlert是用于将告警服务alertmanager产生的消息发送给终端,也就是将消息格式化,适配不同的终端,如邮件,短信,微信,钉钉,飞书等不同的接口。
将alertmanager告警消息的接受者指定为prometheus-alert提供的url。修改告警规则rules.yml,添加webhook_configs中url配置。
rules.py
http://172.16.9.124:9094/prometheusalert?type=fs&tpl=prometheus-fs&fsurl=xxx
是prometheus-alert提供的固定格式,
- type=fs表示为飞书
- tpl=prometheus-fs 表示是prometheus消息
- fsurl 为飞书机器人的webhook,就是创建飞书机器人拿到的webhook
这些参数非常关键,通过type和tpl可以匹配到prometheus-alert上的模板,以上参数匹配到就是飞书的模板。当消息到来的时候,会自动适配到飞书模板,发送给飞书机器人。
重启alertmanager让配置生效
如果不能收到告警消息,排查三个地方,查看告警信息的流向:
一、prometheus 触发的告警。
是否产生了告警消息
二、prometheusAlert 接收到的告警msg。
当prometheusAlert对接alertmanager之后,告警消息就能发送过来,从日志中可以看到prometheusAlert接收到的错误信息。
三、prometheusAlert web端显示发送的告警。
查看prometheusAlert的消息统计信息,是否有消息发送进来和出去。如果从日志中看到有消息进来,但是统计页面没有消息出去,那就是服务模板配置有问题,有问题——看日志。
默认告警模板很难满足所有人的审美,如果要选择更多模板,可以使用prometheusAlert提供的模板功能完成。默认的模板如下:
红框内容都是必填内容,分别是模板的内容,日志中json格式的告警消息,飞书机器人的地址。
其中模板可以从这里去找:https://github.com/feiyu563/prometheusAlert/issues/30,比如说我个人喜欢这个
为了方便测试,把模板和告警日志也搬过来
模板
日志
ok,到此为止prometheus的搭建就完成了,撒花🎉🎉🎉
整个过程步骤较多,即使是我第二次搭建也出现了很多问题。有问题也不要慌,多看日志,搜索报错记录,分析可能的报错原因,问题终会解决👌。
参考文档: https://www.cnblogs.com/goldsunshine/p/17954957
https://blog.csdn.net/Real_cTo/article/details/139179597















浙公网安备 33010602011771号