prometheus 几个重要的参数

evaluation_interval -----------------------------------:prometheus 估算expr的间隔

scrape_interval -----------------------------------: 采集器抓取样本的间隔

resolve_timeout -----------------------------------: 表示在告警解除后过久将告警标识为resolved,如果设置的过短,监控指标在阈值上下波动,这时产生大量的resolved firing信息

repeat_interval -----------------------------------:表示,告警没有恢复,需要过多久,重复发送firing信息; 设置的过短,会不断重复发送此告警的firing信息

 

group_wait

group_interval 最佳设置 

这两个值设置不正确,会发生firing对应的resolved没有 或者多条 

https://blog.csdn.net/sinat_32582203/article/details/122617740

 

send_resolved: true 是否发送告警恢复通知 

 

posted @ 2022-06-07 14:43  清明雨下  阅读(688)  评论(0)    收藏  举报