prometheus 几个重要的参数
evaluation_interval -----------------------------------:prometheus 估算expr的间隔
scrape_interval -----------------------------------: 采集器抓取样本的间隔
resolve_timeout -----------------------------------: 表示在告警解除后过久将告警标识为resolved,如果设置的过短,监控指标在阈值上下波动,这时产生大量的resolved firing信息
repeat_interval -----------------------------------:表示,告警没有恢复,需要过多久,重复发送firing信息; 设置的过短,会不断重复发送此告警的firing信息
group_wait
group_interval 最佳设置
这两个值设置不正确,会发生firing对应的resolved没有 或者多条
https://blog.csdn.net/sinat_32582203/article/details/122617740
send_resolved: true 是否发送告警恢复通知

浙公网安备 33010602011771号