nagios准确报警时间

准确报警时间是指nagios检测完某一服务后,该服务立即发生故障,从此刻起到你收到报警的时间。
如果是你的服务down掉,nagios立即发现,那nagios发出报警的时间就会变为”(“max_check_attempts  -1”乘以“retry_interval ”)。如max_check_attempts设置为1,nagios会立即报警。



关于max_check_attempts、normal_check_interval、retry_check_interval三个参数。
首先要说明两个概念,一、软态:被监控项处于retry_check检测周期内的非正常状态;二、硬态:被监控项达到max_check_attempts最大次数后的非正常状态;除此之外的状态,我们估且称之为“常态”。
我们试着看看设置如下参数时,Nagios是怎么做状态检测及告警的:
引用
        max_check_attempts      3
        normal_check_interval      3
        retry_check_interval        2
        notification_interval         3

首先,Nagios每三分钟检测一次服务,当某次检测到服务状态为异常时,直接进入软态(1/3 soft state),此后,以每2分钟(retry_check_interval)的检测频率,再进行2次(一共进行3次检测,从而达到 max_check_attempts)检测,如果这三次检测服务都为异常,则直接进入硬态(hard state)。进入硬态后,Nagios以每3分钟(normal_check_interva)一次的频率检测服务,这与常态时是一样的;同时每3分钟(notification_interval)进行一次告警。

注意:修改这些参数后并不是即时生效。首先要重启nagios,然后等待下一次检测完成,nagios才会按新的参数计算检测时间与报警次数。

posted on 2013-08-28 11:33  风林幻海  阅读(558)  评论(0编辑  收藏  举报

导航