Nagios-指南第二版-全-

**`2007-12-29`**

linux:~ # **groupadd -g 9000 nagios**
linux:~ # **groupadd -g 9001 nagcmd**
linux:~ # **useradd -u 9000 -g nagios -G nagcmd -d /usr/local/nagios** \
 **-c "Nagios Admin" nagios**

linux:~ # **grep "^User" /etc/apache2/apache2.conf**
User www-data

linux:~ # **usermod -G nagcmd www-data**

linux:~ # **mkdir /usr/local/nagios /etc/nagios /var/nagios**
linux:~ # **chown nagios.nagios /usr/local/nagios /etc/nagios /var/nagios**

linux:~ # **mkdir /usr/local/src**
linux:~ # **cd /usr/local/src**
linux:local/src # **tar xvzf** path/to/**nagios-3.0.tar.gz**
...

linux:~ # **cd /usr/local/src/nagios-3.0**
linux:src/nagios-3.0 # **./configure** \
 **--sysconfdir=/etc/nagios** \
 **--localstatedir=/var/nagios** \
 **--with-command-group=nagcmd**
...

******* Configuration summary for nagios 3.0 *******:

General Options:
----------------
       Nagios executable:   nagios
       Nagios user/group:   nagios,nagios
      Command user/group:   nagios,nagcmd
           Embedded Perl:   yes, with caching
            Event Broker:   yes
       Install $prefix:   /usr/local/nagios
                 Lock file: /var/nagios/nagios.lock
 Check result  directory:   /var/nagios/spool/checkresults
         Init  directory:   /etc/init.d
Apache conf.d  directory:   /etc/apache2/conf.d
           Mail program:    /usr/bin/mail
                Host OS:    linux-gnu

Web Interface Options:
------------------
               HTML URL:    http://localhost/nagios/
                CGI URL:    http://localhost/nagios/cgi-bin/
Traceroute (used by WAP):   /usr/sbin/traceroute

linux:src/nagios-3.0 # **make all**
...
linux:src/nagios-3.0 # **make install**
...
linux:src/nagios-3.0 # **make install-init**
...
linux:src/nagios-3.0 # **make install-commandmode**
...
linux:src/nagios-3.0 # **make install-config**
...

linux:~ # **update-rc.d nagios defaults 99**

linux:~ # **ln -s /etc/init.d/nagios /etc/rc2.d/S99nagios**
linux:~ # **ln -s /etc/init.d/nagios /etc/rc3.d/S99nagios**
linux:~ # **ln -s /etc/init.d/nagios /etc/rc4.d/S99nagios**
linux:~ # **ln -s /etc/init.d/nagios /etc/rc5.d/S99nagios**
linux:~ # **ln -s /etc/init.d/nagios /etc/rc0.d/K99nagios**
linux:~ # **ln -s /etc/init.d/nagios /etc/rc1.d/K99nagios**
linux:~ # **ln -s /etc/init.d/nagios /etc/rc6.d/K99nagios**

linux:~ # **insserv nagios**

linux:~ # **chkconfig --add nagios**
linux:~ # **nagios on**

linux:~ # **cd /usr/local/src**
linux:local/src # **tar xvzf** path /to/**nagios-plugins-1.4.tar.gz**
linux:src/nagios-plugins-1.4.11 # **./configure** \
 **--sysconfdir=/etc/nagios** \
 **--localstatedir=/var/nagios** \
 **--enable-perl-modules**
...

...
configure: WARNING: Skipping radius plugin
configure: WARNING: install radius libs to compile this plugin (see
           REQUIREMENTS).
...
configure: WARNING: Tried /usr/bin/perl - install Net ::SNMP perl
           module if you want to use the perl snmp plugins
...

linux:~ # **perl -MCPAN -e 'install Net::SNMP'**
...

linux:nagios-plugins-1.4.11/contrib # **make check_cluster2**[22]
cc     check_cluster2.c   -o check_cluster2

linux:~ # **chown root.nagios /usr/local/nagios/libexec/check_icmp**
linux:~ # **chmod 4711 /usr/local/nagios/libexec/check_icmp**
linux:~ # **ls -l /usr/local/nagios/libexec/check_icmp**
-rwsr-x--x 1 root nagios 61326 2005-02-08 19:49 check_icmp

nagios@linux:~$ **/usr/local/nagios/libexec/check_icmp -h**
Usage: check_icmp [options] [-H] host1 host2 hostn

Where options are any combination of:
 ***** -H | --host        specify a target
 ***** -w | --warn        warning threshold (currently 200.000ms,40%)
 ***** -c | --crit        critical threshold (currently 500.000ms,80%)
 ***** -n | --packets     number of packets to send (currently 5)
 ***** -i | --interval    max packet interval (currently 80.000ms)
 ***** -I | --hostint     max target interval (currently 0.000ms)
 ***** -l | --ttl         TTL on outgoing packets (currently 0)
 ***** -t | --timeout     timeout value (seconds, currently 10)
 ***** -b | --bytes       icmp packet size (currenly ignored)
  -v | --verbose     verbosity++
  -h | --help        this cruft
The -H switch is optional. Naming a host (or several) to check is not.

user@linux:~$ **cd /usr/local/nagios/libexec**
user@linux:nagios/libexec$ **./check_icmp -H 192.168.1.13**
OK - 192.168.1.13: rta 0.261ms, lost 0%|rta=0.261ms;200.000;500.000;0;
pl=0%;40;80;;

linux:~ # **make install-webconf**
...

ScriptAlias /nagios/cgi-bin "/usr/local/nagios/sbin"
<Directory "/usr/local/nagios/sbin">
  Options ExecCGI
  AllowOverride None
  Order allow,deny
  Allow from all
# Order deny,allow
# Deny from all
# Allow from 127.0.0.1
  AuthName "Nagios Access"
  AuthType Basic
  AuthUserFile /etc/nagios/htpasswd.users
Require valid-user
</Directory>

Order deny, allow
Deny from all
Allow from 127.0.0.1
Allow from 192.0.2.0/24

linux:~ # **/etc/init.d/apache reload**

linux:~ # **setenforce 0**

use_authentication=1

AuthName "Nagios Access"
AuthType Basic
AuthUserFile /etc/nagios/htpasswd.users
Require valid-user

linux:/etc/nagios **# htpasswd2 -c htpasswd.users nagios**
New password: passwort
Re-type new password: passwort
Adding password for user nagios

nagios:7NlyfpdI2UZEs

linux:/etc/nagios **# htpasswd2 htpasswd.users** another_user

linux:/etc/nagios **# chown www-data htpasswd.users**
linux:/etc/nagios **# chmod 600 htpasswd**

user@linux:/etc/nagios$ **tree**[31]
.
|-- nagios.cfg
|-- cgi.cfg
|-- resource.cfg
'-- objects
    |-- templates.cfg
    |-- commands.cfg
    |-- contacts.cfg
    |-- timeperiods.cfg
    |-- localhost.cfg
    |-- windows.cfg
    |-- printer.cfg
    '-- switch.cfg

user@linux:/etc/nagios$ **tree**
.
|-- nagios.cfg
|-- cgi.cfg
|-- resource.cfg
|-- localhost.cfg
'-- commands.cfg

nagios@linux:/etc/nagios$ **fgrep cfg_file nagios.cfg**
...
cfg_file=/etc/nagios/objects/commands.cfg
cfg_file=/etc/nagios/objects/contacts.cfg
cfg_file=/etc/nagios/objects/timeperiods.cfg
cfg_file=/etc/nagios/objects/templates.cfg
cfg_file=/etc/nagios/objects/localhost.cfg
...

nagios@linux:/etc/nagios$ **fgrep cfg_file nagios.cfg**
...
cfg_file=/etc/nagios/commands.cfg
cfg_file=/etc/nagios/localhost.cfg
...

...
cfg_dir=/etc/nagios/mysite
...

nagios@linux:/etc/nagios$ **tree**
.
|-- nagios.cfg
|-- cgi.cfg
|-- resource.cfg
|-- htpasswd
'-- mysite
    |-- contactgroups.cfg
    |-- misccommands.cfg
    |-- contacts.cfg
    |-- timeperiods.cfg
    |-- checkcommands.cfg
    |-- hosts.cfg
    |-- services.cfg
    '-- hostgroups.cfg

...
'-- mysite
    |-- linux
    |   |-- services
    |   '-- hosts
    |   |-- linux01.cfg
    |   |-- linux02.cfg
    |   '-- linux03.cfg
    |-- windows
    |   |-- services
    |   '-- hosts
    |       |-- win03.cfg

    |       '-- win09.cfg
    '-- router
        |-- services
        '-- hosts
            |-- edge01.cfg
            |-- edge02.cfg
            '-- backbone.cfg

cfg_dir=/etc/nagios/mysite

|-- global
|   |-- commands
|   |   |-- check-host-alive.cfg
|   |   |-- check_http.cfg
|   |   |-- check_icmp.cfg
... ... ...
|   |-- contacts
|   |   |-- nagios.cfg
|   |-- templates
|   |   |-- host_generic_t.cfg
|   |   |-- service_generic_t.cfg
|   |   |-- service_perfdata_t.cfg
... ... ...
|   '-- timeperiods
'-- sites
    |-- foreignsite
    |   |-- hosts
    | '-- services
    |-- mysite
    |   |-- hosts
    | '-- services
    '-- othersite
        |-- hosts
        '--services

cfg_dir=/etc/nagios/global
cfg_dir=/etc/nagios/sites

date_format=us

define *object-type* {
 *parameter value*
 *parameter value*
   ...
}

define service {
   name PING
   host_name linux01
   ...
}
define service {
   name PING
   host_name linux03
}

# -- /etc/nagios/mysite/hosts.cfg
define host{
 **host_name**                   linux01
   hostgroups                      linux-servers
 **alias**(*)           Linux File Server
 **address**                     192.168.1.9
   check_command                   check-host-alive
 **max_check_attempts**          3
 **check_period**                24×7
 **contact_groups**              localadmins
 **notification_interval**       120
 **notification_period**         24×7
 **notification_options**        d,u,r,f,s(*)
   parents                         router01
}

# -- /etc/nagios/mysite/hostgroups.cfg
define hostgroup{
 **hostgroup_name**           linux-servers
 **alias**                    Linux Servers
    members                      linux01,linux02
    hostgroup_members(*) hostgroup1,hostgroup2
}

# -- /etc/nagios/mysite/services.cfg
define service{
 **host_name**                         linux01
 **service_description**               PING
 **check_command**                     check_ping!100.0,20%!500.0,60%
 **max_check_attempts**                3
 **normal_check_interval**(*)          5
 **retry_check_interval**(*)           1
 **check_period**                      24×7
 **notification_interval**             120
 **notification_period**(*)            24×7
 **notification_options**              w, u, c, r, f, s(*)
 **contact_groups**(*)                 localadmins
}

# -- /etc/nagios/mysite/servicegroups.cfg
define servicegroup{
 **servicegroup_name**            all-ping
 **alias**                        All Pings
 **members**                      linux01, PING, linux02, PING
  servicegroup_members(*) servicegroup1, servicegroup2
}

members `hostl`,`servicel`,`host2`,`service2`, ...

# -- /etc/nagios/mysite/contacts.cfg
define contact{
 **contact_name**                   nagios
 **alias**                          Nagios Admin
 **host_notification_period**       24×7
 **service_notification_period**    24×7
 **service_notification_options**   w, u, c, r
 **host_notification_options**      d, u, r
   service_notification_commands      notify-by-email
   host_notification_commands         host-notify-by-email
  **email**                          nagios-admin@localhost
    can_submit_commands(*)    1
}

# -- /etc/nagios/mysite/contactgroups.cfg
define contactgroup{
 **contactgroup_name**    localadmins
 **alias**                Local Site Administrators
 **members**              nagios
   contactgroup_members(*) contactgroup1,contactgroup2
}

nagios@linux:/etc/nagios$ **cp objects/checkcommands.cfg** \ **mysite/checkcommands.cfg**

# -- /etc/nagios/mysite/checkcommands.cfg
...
define command{
 **command_name** check_ping
 **command_line** $USER1$/check_icmp -H $HOSTADDRESS$ -w $ARG1$ -c $ARG2$
-p 5
}
...

check_ping!100.0,20%!500.0,60%

# -- /etc/nagios/mysite/timeperiods.cfg
define timeperiod{
 **timeperiod_name** 24×7
 **alias**           24 Hours A Day, 7 Days A Week
   Sunday              00:00-24:00
   Monday              00:00-24:00
   tuesday             00:00-24:00
   wednesday           00:00-24:00
   Thursday            00:00-24:00
   Friday              00:00-24:00
   Saturday            00:00-24:00
}

define timeperiod{
   ...
   Monday          00:00-09:00,12:00-13:00,17:00-24:00
   ...
}

2007-12-24     08:00-12:00
may 1          00:00-24:00
monday 2 may   00:00-24:00
monday 3       00:00-24:00
...
2007-12-24 - 2008-01-08 / 2 00:00-24:00

# -- /etc/nagios/mysite/hosts.cfg
define host{
 **name**             **Generic-Host**
 **register**         **0**

   check_command           check-host-alive
   max_check_attempts      3
   check_period            24×7
   contact_groups          localadmins
   notification_interval   120
   notification_period     24×7
   notification_options    d, u, r, f
}

Error: Host name is NULL

# -- /etc/nagios/mysite/hosts.cfg
define host{
   host_name   linux03
   **use**  **Generic-Host**
   alias       Linux File Server
   address     192.168.0.1
}
define host{
   host_name   linux04
   **use  Generic-Host**
   alias       Linux Print Server
   address     192.168.0.2
}

# -- /etc/nagios/mysite/services.cfg
define service{
 **host_name**         linux01,linux02,linux04,...
   service_description   PING
   ...
}

# -- /etc/nagios/mysite/services.cfg
define service{
 **hostgroup_name**    linux-servers,windows-servers
   service_description   PING
   ...
}

# -- /etc/nagios/mysite/hostgroups.cfg
define hostgroup{
   hostgroup_name    all-hosts
 **members    ***
   ...
}

nagios@linux:/etc/nagios$ **cp sample/cgi.cfg-sample ./cgi.cfg**

nagios@linux:/etc/nagios$ **egrep -v '^$|^#' cgi.cfg-sample | less**
main_config_file=/etc/nagios/nagios.cfg
physical_html_path=/usr/local/nagios/share
url_html_path=/nagios
show_context_help=0
use_authentication=1
...

authorized_for_all_services=nagios
authorized_for_all_hosts=nagios

$USER1$=/usr/local/nagios/libexec

nagios@linux:~$ **/usr/local/nagios/bin/nagios -v /etc/nagios/nagios.cfg**
Nagios 3.0rc1
Copyright (c) 1999-2007 Ethan Galstad (http://www.nagios.org)
Last Modified: 12-17-2007
License: GPL

Reading configuration data...

Running pre-flight check on configuration data...

Checking services...
         Checked 2092 services.
Checking hosts...
Warning: Host 'eli-sw01' has no services associated with it!
         Checked 183 hosts.
Checking host groups...
         Checked 55 host groups.
Checking service groups...
         Checked 34 service groups.
Checking contacts...
         Checked 59 contacts.
Checking contact groups...
         Checked 7 contact groups.
Checking service escalations...
         Checked 0 service escalations.
Checking service dependencies...
         Checked 24 service dependencies.
Checking host escalations...
         Checked 0 host escalations.
Checking host dependencies...
         Checked 0 host dependencies.
Checking service groups...
         Checked 34 service groups.
Checking contacts...
         Checked 59 contacts.
Checking contact groups...
         Checked 7 contact groups.
Checking service escalations...
         Checked 0 service escalations.
Checking service dependencies...
         Checked 24 service dependencies.
Checking host escalations...
         Checked 0 host escalations.
Checking host dependencies...
         Checked 0 host dependencies.
Checking commands...
         Checked 105 commands.
Checking time periods...
         Checked 6 time periods.
Checking for circular paths between hosts...
Checking for circular host and service dependencies...
Checking global event handlers...
Checking obsessive compulsive processor commands...
Checking misc settings...
Total Warnings: 1
Total Errors: 0

Things look okay - No serious problems were detected during the pre-flig
ht check

Error: Could not find any host matching 'linux03'
Error: Could not expand hostgroups and/or hosts specified in service
(config file '/etc/nagios/mysite/services.cfg', starting on line 0)

***> One or more problems was encountered while processing the config files...

linux:src/nagios # **make install-init**
...

linux:~ # **/etc/init.d/nagios start**

linux:~ # **service nagios start**

linux:~ # **/etc/init.d/nagios reload**

define host{
    host_name      proxy
    ...
  **parents switch2**
}
define host{
    host_name      switch2
    ...
  **parents switch1**
}
define host{
    host_name      switch1
    ...
}

define service{
     host_name                              proxy
     service_description                    DNS
     ...
     **normal_check_interval**[43] **5**
 **retry_check_interval**[44] **1**
 **max_check_attempts**              **5**
     ...
}

220 swobspace.de ESMTP

*TYPE_OF_CHECK STATUS - informational text*

SMTP OK - 0.186 sec. response time
DISK WARNING - free space: /net/eli02/a 3905 MB (7%);

OK - 172.17.129.2: rta 97.751ms, lost 0%| rta=97.751ms;200.000;500.000;0; pl=0%;40;80;;

nagios@linux:local/libexec$ **./check_icmp -m 2 -H 192.168.1.9**
\
**192.168.1.11 192.168.1.13**
OK - 192.168.1.9: rta 0.098ms, lost 0% :: **192.168.1.11: rta nan, lost 100%** ::
192.168.1.13: rta 0.744ms, lost 0%|192.168.1.9rta=0.09 8ms;200.000;500.000;0;
 192.168.1.9pl=0%;40;80;; 192.168.1.11rta=0\. 000ms;200.000;500.000;0;
 192.168.1.11pl=100%;40;80;;
 192.168.1.13r ta=0.744ms;200.000 ;500.000;0; 192.168.1.13pl=0%;40;80;;

linux:~ # **chown root.nagios /usr/local/nagios/libexec/check_icmp**
linux:~ # **chmod 4711 /usr/local/nagios/libexec/check_icmp**
linux:~ # **ls -l /usr/local/nagios/libexec/check_icmp**
-rwsr-x--x l root nagios 61326 2005-02-08 19:49 check_icmp

nagios@linux:~$ **cd /usr/local/nagios/libexec**
nagios@linux:nagios/libexec$ **./check_icmp -H 192.168.1.13** \ **-w 100.0,20%
 -c 200.0,40%**

OK - 192.168.1.13: rta 0.253ms, lost 0%| rta=0.253ms;100.000;200.000;0; pl=0%;20;40;;

define command{
 **command_name   check**_**ping**
      command_line          $USER1$/**check**_**icmp** -H $HOSTADDRESS$ -w $ARG1$ -c
 $ARG2$
}

define service{
    service_description   PING
    host_name             linux01
    **check_command      check_ping!100.0,20%!500.0,60%**
   ...
}

linux:~ # **cd /usr/local/nagios/libexec**
linux:nagios/libexec # **ln -s check_icmp check**_**host**

define host{
    host_name           linux01
    alias               Linux File Server
    address             192.168.1.21
     **check**_**command   check-host-alive**
    ...
}

define command{
 **command**_**name  check-host-alive**
      command_line         $USER1$/**check**_**host** -H $HOSTADDRESS$
}

nagios@linux:nagios/libexec$ **./check_smtp -H smtp01**
SMTP OK - 0,008 sec. response time|time=0,008157s;;;0,000000

define command{
    command_name **check_smtp**
    command_line      $USER1$/**check_smtp** -H $HOSTADDRESS$
}

define service{
     service_description     SMTP
     host_name               linux01
      **check_command    check_smtp**
     ...
}

nagios@linux:nagios/libexec$ **./check_smtp -H localhost** \
 **-C "MAIL FROM: <bla@gna.dot>" -R "250"** \
 **-C "RCPT TO: <bla@gna.dot>" -R "554"**
SMTP OK - 0,019 sec. response time|time=0,018553s;;;0,000000

user@linux:~$ **telnet localhost 25**
Trying 127.0.0.1...
Connected to loca1host.
Escape character is '^]'.
220 swobspace.de ESMTP
**helo swobspace**
250 swobspace.de
**MAIL FROM: <bla@gna.dot>**
250 Ok
**RCPT TO: <bla@gna.dot>**
554 <bla@gna.dot>: Recipient address rejected: test not existing top lev
el domain
...

./check_imap -H *computer* -s "a1 CAPABILITY" -e "STARTTLS"

nagios@linux:nagios/libexec$ **./check_pop -H mailsrv**
POP OK - 0.064 second response time on port 110 [+OK eli11 Cyrus POP3
v2.1.16 server ready <1481963980.1118597146@eli11>]
|time=0.064228s;0.000000;0.000000;0.000000;10.000000

define command{
    command_name **check_pop**
    command_line     $USER1$/**check_pop** -H $HOSTADDRESS$
}

define service{
    service_description     POP
    host_name               linux01
     **check_command    check_pop**
     ...
}

--port=21 --expect="220" --quit="QUIT\r\n"

nagios@linux:nagios/libexec$ **./check_ftp -H ftp.gwdg.de**
FTP OK - 0,130 second response time on port 21 [220-Gesellschaft fuer wi
ssenschaftliche Datenverarbeitung mbH Goettingen] |time=0,130300s;0,0000
00;0,000000;0,000000;10,000000

define command{
     command_name **check_ftp**
     command_line   $USER1$/**check_ftp** -H $HOSTADDRESS$
}

define service{
    service_description    FTP
    host_name              linux01
 **check_command   check_ftp**
    ...
}

nagios@linux:nagios/libexec$ **./check_http -H www.swobspace.de**
HTTP OK HTTP/1.1 200 OK - 2553 bytes in 0.154 seconds

nagios@linux:nagios/libexec$ **./check_http -I www.swobspace.de**
HTTP WARNING: HTTP/1.1 404 Not Found

nagios@linux:nagios/libexec$ **./check_http -H linux.swobspace.net \**
 **-u /mailinglisten/index.html**
HTTP OK HTTP/1.1 200 OK - 5858 bytes in 3.461 seconds

nagios@linux:nagios/libexec$ **./check_http -H www.swobspace.de -L**
<A HREF="http://www.swobspace.de:80/" target="_blank"> HTTP OK HTT P/1.1 200 OK
 - 2553 bytes in 0.156 seconds</A>

nagios@linux:nagios/libexec$ **./check_http -H www.swobspace.de** \
 **m 500:2000**
HTTP WARNING: page size 2802 too large|size=2802B;500;0;0

-k "Accept-Charset: iso-8859-1; Accept-Encoding: compress, gzip;"

nagios@linux:nagios/libexec$ **./check_http --ssl -H \**
 **www.verisign.com**
HTTP OK HTTP/1.1 200 OK - 33836 bytes in 1.911 seconds

nagios@linux:nagios/libexec$ **./check_http --ssl -H www.swobspace.de**
Connection refused
Unable to open TCP socket

GET **http://www.swobspace.de/** HTTP/1.1
Host: **www.swobspace.de**
User-Agent: Mozilla/5.0 (X11; U; Linux i686; de-DE; rv:1.7.5)
Gecko/20041108 Firefox/1.0
Accept: text/xml,application/xml,application/xhtml+xml,...
Accept-Language: de-de,de;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-15,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Proxy-Connection: keep-alive
Pragma: no-cache
Cache-Control: no-cache

nagios@linux:nagios/libexec$ **./check_http -H www.swobspace.de** \
 **-I 192.168.1.13 -p 3128 -u http://www.swobspace.de**
HTTP OK HTTP/1.0 200 OK - 2553 bytes in 0.002 seconds

GET **http://www.swobspace.de HTTP/1.0**
User-Agent: check_http/v1861 (nagios-plugins 1.4.11)
Connection: close
Host: **www.swobspace.de**

define command{
    command_name **check_proxy**
    command_line   $USER1$/**check_http** -H www.googl
e.de -u http://www.google.de -I $HOSTADDRESS$ -p $ARG1$
}

define service{
    service_description    Webproxy
    host_name              linux01
 **check_command   check_proxy!3128**
    ...
}

GET cache_object: //*ip_address/command* HTTP/1.1\n\n

user@linux:~$ **echo "GET cache_object://192.168.1.13/info HTTP/1.1\n\n"** \
    | **netcat 192.168.1.13 3128**
...
File descriptor usage for squid:
         Maximum number of file descriptors:     1024
         Largest file desc currently in use:       18
         Number of file desc currently in use:     15
         Files queued for open:                     0
         Available number of file descriptors:   1009
         Reserved number of file descriptors:     100
         Store Disk files open:                     0
...

...
acl manager proto cache_object
**acl nagiosserver 192.168.1.9**
**http_access allow manager nagiosserver**
http_access deny manager
**cachemgr_passwd none info menu**
...

http_access deny manager

linux:~ # **/etc/init.d/squid reload**

nagios@linux:nagios/libexec$ **./check_squid.pl -H 192.168.1.13**
Squid cache OK (1009 FreeFileDesc)

define command{
    command_name   **check_squid.pl**
    command_line $USER1$/**check_squid.pl** -H $HOSTADDRESS$
}

define service{
   service_description   Squid
   host_name             linux01
   **check_command  check_squid.pl**
   ...
}

nagios@linux:nagios/libexec$ **/check_dns -H www.google.com**
DNS OK: 0,009 seconds response time www.google.com returns 216.239.59.99

define command{
    command_name **check_dns**
    command_line $USER1$/**check_dns** -H www.google.de
}

define service{
    service_description      DNS/nslookup
    host_name                linux01
    **check_command  check_dns**
    ...
}

nagios@linux:nagios/libexec$ **./check_dig -H 194.25.2.129 -l** \
 **www.swobspace.de**
DNS OK - 2,107 Sekunden Antwortzeit (www.swobspace.de. 1800 IN A 21
2.227.119.101)
nagios@linux:nagios/libexec$ **./check_dig -H 194.25.2.129 -l** \
 **www.swobspace.de -a 1.2.3.4**
DNS WARNING - 0,094 Sekunden Antwortzeit (Server nicht gefunden in ANSWE
R SECTION)

define command{
    command_name **check_dig**
    command_line $USER1$/**check_dig** -H $HOSTADDRESS$ −1 $ARG1$
}

define service{
   service_description     DNS/dig
   host_name               linux01
   **check_command    check_dig!www.google.com**
   ...
}

nagios@linux:nagios/libexec$ **./check_ssh -H localhost** \
 **-r 'OpenSSH_4.3p2 Debian-9'**
SSH OK - OpenSSH_4.3p2 Debian-9 (protocol 2.0)
nagios@linux:nagios/libexec$ **./check_ssh -H wobgate -r** \
 **'OpenSSH_4.3p2 Debian-9'**
SSH WARNING - OpenSSH_3.8.1p1 Debian-8.sarge.6 (protocol 2.0) version mi
smatch, expected 'OpenSSH_4.3p2 Debian-9'

define command{
    command_name **check_ssh**
    command_line        $USER1$/**check_ssh** -H $HOSTADDRESS$
}

define service{
    service_description   SSH
    host_name             linux01
     **check_command  check_ssh**
    ...
}

nagios@linux:nagios/libexec$ **./check_tcp -H 192.168.1.89 -p 5631**
TCP OK - 0,061 second response time on port 5631 | time=0,060744s;0,
000000;0,000000;0,000000;10,000000

define command{
     command_name  **check_tcp**
     command_line       $USER1$/**check_tcp** -H $HOSTADDRESS$ -p $ARG1$
}

define service{
   service_description   pcAnywhere
   host_name             Win01
   **check_command  check_tcp!5631**
   ...
}

nagios@linux:nagios/libexec$ **./check_udp -H 192.168.1.13 -p 123 -s "w"** \
 **-e""**
UDP OK - 0.001 second response time on port 123 []|time=0.000586s;;;0.00
0000;10.000000

define command{
    command_name **check_udp**
    command_line $USER1$/**check_udp** -H $HOSTADDRESS$ -p $ARG1$ -s $ARG2$
}

define service{
   service_description
   host_name             timesrv
    **check_command  check_tcp!123!-s "w" -e ""**
   ...
}

postgres@linux:~$ **createuser --no-adduser --no-createdb nagios**
postgres@linux:~$ **createdb --owner nagios nagdb**

#type   db     user   ip-address   ip-mask       method options
local   nagdb  nagios                            ident sameuser
host    nagdb  nagios *ip-nagios* 255.255.255.255 ident sameuser

linux:~ # **/etc/init.d/postgresql reload**

nagios@linux:nagios/libexec$ **./check_pgsql -H linux01 -d nagdb**
CRITICAL - no connection to 'nagdb' (FATAL: IDENT authentication failed
for user "nagios")

nagios@linux:nagios/libexec$ **./check_pgsql -H linux01 -d nagdb**
OK - database nagdb (0 sec.)|time=0,000000s;2,000000;8,000000;0,000000

nagios@linux:nagios/libexec$ **./check_pgsql -H linux01**
CRITICAL - no connection to 'template1' (FATAL: no pg_hba.conf entry fo
r host "172.17.129.2", user "nagios", database "template1", SSL off)

wob@linux:nagios/libexec$ **./check_pgsql -H linux01 -d nagdb**
CRITICAL - no connection to 'nagdb' (FATAL: no pg_hba.conf entry for ho
st "172.17.129.2", user "wob", database "nagdb", SSL off)

define command{
    command_name **check_pgsql**
    command_line $USER1$/**check_pgsql** -H $HOSTADDRESS$ -d nagdb
}

define service{
    service_description     PostgreSQL
    host_name               linux01
     **check_command     check_pgsql**
    ...
}

user@linux:~$ **netstat -ant | grep 3306**
tcp 0 0 0.0.0.0:3306 0.0.0.0:* LISTEN

user@linux:~$ **mysql --user=root mysql**
mysql> **CREATE DATABASE nagdb;**

mysql> **GRANT select ON nagdb.* TO nagios@ ip-nagios;**

nagios@linux:nagios/libexec$ **./check_mysql -H dbhost -u nagios -d nagdb**
Uptime: 19031 Threads: 2 Questions: 80 Slow queries: 0 Opens: 12
Flush tables: 1 Open tables: 6 Queries per second avg: 0.004

nagios@linux:nagios/libexec$ **./check_mysql -H dbhost**
Uptime: 19271 Threads: 1 Questions: 84 Slow queries: 0 Opens: 12
Flush tables: 1 Open tables: 6 Queries per second avg: 0.004

user@linux:~$ **mysql -u nagios**
mysql> **use nagdb**;
Database changed
mysql>

define command{
   command_name **check_mysql**
   command_line $USER1$/**check_mysql** -H $HOSTADDRESS$ -u nagios -d nagdb
}

define service{
   service_description     MySQL
   host_name               linux01
   **check_command               check_mysql**
   ...
}

uid=wob,dc=swobspace,dc=de

allow bind_v2

nagios@linux:nagios/libexec$ **./check_ldap -H ldap.swobspace.de** \
 **-b "dc=swobspace,c=de"**
LDAP OK - 0,002 seconds response time|time=0,002186s;;;0,000000

define command{
    command_name **check_ldap**
    command_line $USER1$/**check_ldap** -H $HOSTADDRESS$ -b $ARG1$
}

define service{
   service_description    LDAP
   host_name              linux01
    **check_command     check_ldap!dc=swobspace,dc=de**
   ...
}

define command{
   command_name **check_ldap_auth**
   command_line $USER1$/**check_ldap** -H $HOSTADDRESS$ -b $ARG1$ -D $ARG2$
-P $USER3$
}

define service{
    service_description     LDAP
    host_name               linux01
 **check_command check_ldap_auth!dc=swobspace,dc=de!uid=nagios,**\
 **dc=swobspace,dc=de**
   ...
}

linux:nagios/libexec # **chown root.nagios check_dhcp**
linux:nagios/libexec # **chmod 4750 check_dhcp**
linux:nagios/libexec # **ls -l check_dhcp**
-rwsr-x--- 1 root nagios 115095 Jan 8 12:15 check_dhcp

nagios@linux:nagios/libexec$  **./check_dhcp -i eth0**
DHCP ok: Received 1 DHCPOFFER(s), max lease time = 600 sec.

nagios@linux:nagios/libexec$ **./check_dhcp -i ethO -r 192.168.1.40**
DHCP problem: Received 1 DHCPOFFER(s), requested address (192.168.1.40)
was not offered, max lease time = 600 sec.
nagios@linux:nagios/libexec$ **echO $?**
1

define command{
   command_name **check_dhcp_service**
   command_line $USER1$/**check_dhcp** -i etho
}

define command{
  command_name **check_dhcp_server**
  command_line $USER1$/**check_dhcp** -i etho -s $HOSTADDRESS$
}

define service{
   service_description    DHCP Services
   host_name              linux01
 **check_command      check_dhcp_service**
   ...
}

define service{
   service_description     DHCP Server
   host_name               linux01
 **check_command     check_dhcp_server**
   ...
}

# -- /etc/nut/ups.conf

[upsfw]
    driver = apcsmart
    port = /dev/ttySO
    desc = "Firewalling/DMZ"

user@linux:~$ **chown nut:nut /dev/ttyS0**
user@linux:~$ **chmod 660 /dev/ttyS0**

# -- /etc/nut/upsd.conf

# ACL *aclname ipblock*
ACL all 0.0.0.0/0
ACL localhost 127.0.0.1/32
ACL nagios 172.17.129.2/32

ACCEPT localhost nagios
REJECT all

user@linux:nagios/libexec$ **./check_ups -H localhost -u upsfw -T**
UPS OK - Status=Online Utility=227.5V Batt=100.0% Load=27.0% Temp=30.6C|
voltage=227500mV;;;0 battery=100%;;;0;100 load=27%;;;0;100 temp=30degF;;
;0

define command{
    command_name **check_ups**
    command_line   $USER1$/**check_ups** -H $HOSTADDRESS$ -u $ARG1$ -T
}

define service{
   service_description    UPS
   host_name              linux01
 **check_command     check_ups!upsfw**
   ...
}

user@linux:nagios/libexec$ **./check_ups -H linux01 -u upsfw -T -v** \
 **LOADPCT -W 60 -c 80**
UPS WARNING - Status=Online Utility=227.5V Batt=100.0% Load=61.9%
Temp=30.6C|voltage=227500mV;;;0 battery=100%;;;0;100 load=61%;60000;
80000;0;100 temp=30degC;;;0

nagios@linux:nagios/libexec$ **ntpq -np 192.168.1.13**
remote           refid         st  t  when  poll  reach  delay  offset  jitter
127.127.1.1      .LOCL.        10  1   26    64    377    0.000  0.000   0.001
*81.169.141.30   81.169.172.219 3  u    1   128    377   27.515 −4.411   1.219
+217.160.215.119 212.82.32.26   3  u  125   128    377   17.834  1.505   1.069

nagios@linux:nagios/libexec$ **./check_ntp_peer -H 192.168.1.13**
NTP OK: Offset −0.004411 secs|offset=−0.004411s;60.000000;120.000000;

nagios@linux:nagios/libexec$ **df /usr/local**
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/md2 9843168 7062980 2280172 76% /usr

nagios@linux:nagios/libexec$ **./check_disk -w 10% -E -p/usr/local**
DISK CRITICAL: /usr/local not found

nagios@linux:nagios/libexec$ **./check_disk -w 10% -r 'md[0-2]$'**
DISK OK - free space: / 281 MB (31% inode=80%); /usr 2226 MB (24% i
node=77%);| /=626MB;861;;0;957 /usr=6897MB;8650;;0;9612

-w 10% -c 5% -p / -p /usr -C -w 500 -c 100 -p /var

nagios@linux:nagios/libexec$ **./check_disk -g CLUSTER -w 10%**\
  **-r 'md[0-3]'**
DISK OK - free space: CLUSTER 7437 MB (38% inode=86%);| CLUSTER=11
719MB;18163;;0;20182

user@linux:nagios/libexec$ **./check_disk -w 10% -c 5% -p / -p /usr** \
  **-p /var -C -w 5% -c 3% -p /net/emil1/a -p /net/emil1/c -e**
DISK WARNING - free space: /net/emil1/c 915 MB (5%);| /=146MB;458;483;0;
509 /usr=1280MB;3633;3835;0;4037 /var=2452MB;3633;3835;0;4037 /net/emil1
/a=1211MB;21593;22048;0;22730 /net/emil1/c=17584MB;17574;17944;0;18499

user@linux:nagios/libexec$ **./check_swap -w 50% -c 20%**
swap OK: 100% free (3906 MB out of 3906 MB) |swap=3906MB;1953;781;0;3906

user@linux:~$ **uptime**
16:33:35 up    7:05, 18 users, load average: 1.87, 1.38, 0.74

user@linux:local/libexec$ **./check_load -w 10.0,8.0,5.0 -c 15.0,10.0,8.0**
OK - load average: 1.93, 0.95, 0.50| load1=1.930000;10.000000;15.000000;
0.000000  load5=0.950000;8.000000;10.000000;0.000000 load15=0.500000;
5.000000;8.000000;0.000000

nagios@linux:nagios/libexec$ **./check_procs -c 1:1 -C nagios -p 1**
PROCS OK: 1 process with command name 'nagios', PPID = 1

nagios@linux:nagios/libexec$ **./check_procs -w 1:4 -c 1:7 -C slurpd**
PROCS OK: 1 process with command name 'slurpd'

nagios/libexec@linux: $ **./check_procs -w 1 -c 5 -s Z**
PROCS OK: 0 processes with STATE = Z

nagios/libexec@linux: $ **./check_procs -w 1 -c 5 -P 10**
PROCS OK: 1 process with PCPU >= 10,00

user@linux : nagios/libexec$ **./check_procs -w 1 : 1 -c 1 : 1 -C master**
CRITICAL - 2 processes running with command name master

user@linux : ~$ **ps -fC master**
UID    PID   PPID   C   STIME   TTY   TIME          CMD
cyrus  431      1   0    2004   ?   00 : 00 : 28    /usr/lib/cyrus/bin/master
root  1042      1   0    2004   ?   00 : 00 : 57    /usr/lib/postfix/master

user@linux : nagios/libexec$ **./check_procs -w 1 : 1 -c 1:1 -C master -u** \
 **cyrus**
OK - 1 processes running with command name master, UID = 96 (cyrus)

这会产生一个匹配项。插件在文本中不显示其返回值，但可以在 shell 中使用**`echo $?`**显示。在示例中，返回一个**`2`**表示 CRITICAL。

如果你检查多个不同事件的日志文件，你必须为每个日志文件指定一个单独的**``*`oldlog`*``**：

即使你在同一个原始日志文件中进行搜索，也无法避免使用两个不同的**`oldlogs`**：否则**`check_log`**将无法正确工作。

## 7.5.2 现代变体：**`check_logs.pl`**

作为替代方案，Nagios Exchange^([74])提供了一个用于监控日志文件的全新插件。**`check_logs.pi`**是 Perl 插件**`check_log2.pl`**的进一步发展，该插件包含在 Nagios 插件的**`contrib`**目录中，但不是自动安装的。

**`check_logs.pl`**可以同时检查多个日志文件中的事件，这与**`check_log`**和**`check_log2.pl`**不同。为此，它需要一个配置文件。

它确实有一个简单的命令行模式，但只有在同时指定单个日志文件和单个正则表达式时才会工作。但**`check_logs.pl`**真正有趣的功能是你可以一次进行多次检查。这就是为什么我们不会花更多时间描述命令行模式。

初始时，我们创建一个配置文件，大致内容如下，最好放在目录**`/etc/nagios:`**中。

Perl 变量**`$seek_file_template`**包含插件保存最后搜索位置的文件的路径。**`check_logs.pl`**在这里记住下次运行时应该在日志文件的哪个位置继续搜索。这意味着插件不需要处理过的日志文件的副本。而不是使用变量**`$log_file`**，它使用要检查的日志文件名，并为每个日志文件创建一个单独的位置文件。

**`check_logs.pl`**具体要做什么由 Perl 数组**`@log_files`**定义。条目**`file_name`**指向要测试的日志文件（带有绝对路径），而**`reg_exp`**包含**`check_logs.pl`**应在日志文件中搜索的正则表达式^([75))。在上面的例子中，这是**`/var/log/messages`**日志文件中的一个简单文本**`ntpd`**，但在**`/var/log/warn`**的情况下有一个替代方案：正则表达式**`(named | dhcpd)`**匹配包含文本**`named`**或文本**`dhcpd`**的行。

当插件运行时，它本身需要的唯一指定是配置文件（选项**`-c`**）：

第一条命令展示了基本原理：在文本输出中，每个日志文件的插件会分别宣布是否找到了匹配的事件。在上面的例子中，它没有找到任何内容，因此返回 OK。在第二条命令中，插件在**`warn`**日志文件中发现了四个相关条目，但在**`/var/log/messages`**中没有找到。因此，插件返回警告；只有在检查的任何日志文件中都没有找到相关事件时，才会给出 OK。在其输出行中，在**`(4):`**之后，插件会记住找到的四个行中的最后一个。

## 7.5.3 瑞士军刀：**`check_logfiles`**

如果你有很多来自日志文件的要求，而迄今为止介绍的工具不能满足你的需求，那么你真的应该看看 Gerhard Laußer 开发的插件 **`check_logfiles`**。除了复杂的搜索选项外，它还可以处理任何你想要的轮换方法，以确保轮换后不会丢失任何信息。其功能范围可以通过脚本扩展，这些脚本可以用于重启崩溃的应用程序，发送 SNMP 陷阱，或者通过 **`send_nsca`** 将被动检查结果发送到 NSCA 守护进程（14.4 将测试结果发送到服务器，第 305 页）。

对于简单的任务，插件可以通过命令行轻松操作，但若要更高级地使用它，你需要具备一些 Perl 知识：用于利用所有功能的配置文件使用 Perl 语法。

将插件解压到合适的目录中，例如 **`/usr/local/src`**：

安装通过三个命令 **`configure && make && make install`** 完成。**`--with-seekf iles-dir`** 指定 **`check_logfiles`** 写入状态信息的目录，而 **`--with-protocol-dir`** 指定 **`check_logfiles`** 明确保留找到的匹配项的目录。在执行此操作时，你应该选择一个在每次重启后不会直接删除的目录。根据定义的检查，可以在配置中关闭日志记录。

在命令行上，**`check_logfiles`** 提供以下选项：

**`--tag=`****``*`designator`*``**

指示单个检查，以便更好地区分它们。性能数据中变量的名称也以此标识符开头，以便以后可以将值重新分配给检查。指定 **`--tag`** 是可选的，但插件作者通常推荐使用它。

**`--logfile=`****``*`logfile`*``**

指定要检查的日志文件名称和路径。**`check_logfiles`** 在每次检查时都会注意文件的最后一行，以便在下一次调用时从相同的位置继续。此外，**`check_logfiles`** 还会保存其他信息，如 inode 和时间戳，以便检测日志文件轮换。

**`--rotation=`****``*`rotation method`*``**

指定日志文件的轮换过程：如果你想将 **``*`logfile`*``** 转换为 **``*`logfile.0`*``** 并将其转换为 **``*`Logfile.1.gz.`*``**，则使用 **`loglog0log1gz`**。

**`loglog0gzlog1gz`** 表示首先将 **``*`logfile`*``** 压缩为 **``*`logfile. 0\. gz`*``**，然后将其重命名为 **``*`logfile.1.gz.`*``**

**`loglogdate8gz`** 表示 **``*`logfile`*``** 将被转换为 **``*`logfile. YYYYMMDD.gz.`*``**。

**`loglog01og1`** 描述了将 **``*`logfile`*``** 转换为 **``*`logfile.0`*``** 并在下一个旋转步骤中创建文件 **``*`logfile.1`*``** 的旋转方法。

hpux 则描述了变体“ **``*`logfile`*``** 转换为 **`OLD`****``*`logfile`*``**”。

如果缺少合适的旋转方法，可以指定一个匹配存档文件的正则表达式。对于 Debian，因此指定 **`--rotation='`** **``*`logfile`*\. (0|[0-9]+\.gz)``**。这是以防在文件的初始旋转过程中错过结尾 **`.0`**，并且如果所有较旧的存档文件都以 **``*`.number`*``****`.gz`** 结尾。

**`--criticalpattern=`****``*`regexp`*``**

Perl 语法中的正则表达式，触发 CRITICAL。更详细的信息由 **`man perlre`** 提供。

**`--warningpattern=`****``*`regexp`*``**

与 **`--criticalpattern`** 类似，但这里的正则表达式触发 WARNING。

**`--noprotocol`**

关闭匹配的记录到单独的文件。

**`--syslogserver`**

将对 syslog 服务器日志文件的评估限制在服务器本身输入的行。

**`--syslogclient=`****``*`clientname`*``**

将对 syslog 服务器日志文件的评估限制在来自 syslog 客户端 **``*`clientname`*``** 的行。

**`-f`** **``*`configfile`*``**

指定一个配置文件，它允许比仅通过几个命令行参数允许的更广泛的配置。对于此功能，Perl 知识是必不可少的（参见 7.5.3 瑞士军刀：check_logfiles）。

**`-d`**

开启调试模式。在查找错误时很有用；此选项不应在正常操作期间使用。

**`check_logfiles`** 在首次调用时初始化，以便它可以定位自身。插件仅考虑随后附加到日志文件的日志条目，因此它无法评估已存在的详细信息。

为了演示目的，我们首先使用 **`logger`** 程序在文件 **`/var/log/messages`** 中生成条目：^([77])

日志文件现在包含以下条目：

简单调用 **`check_logfiles`** 返回以下结果：

性能数据中的所有变量都附加到 **`hellowob`** 标签，以便在 **`check_logfiles`** 同时搜索多个不同条目时可以再次引用相应的事件。

再次运行 **`check_logfiles`** 返回 OK，因为新增的 32 条条目（**`hellowob_lines=32`**）中没有任何一条包含要搜索的文本：

### 配置文件

**`check_logfiles`** 的配置文件基本上包含一个由搜索指令组成的数组，每个指令都编写为一个匿名散列：

该数组被称为**`@searches`**；每个包含在**`{}`**中的指令都是一个搜索指令。**`hellowob`**示例的配置文件可能看起来像这样：

指令标记和**`rotation`**对应于同名命令行参数。指令**`criticalpatterns`**和**`warningpatterns`**在此处标记（与等效命令行参数不同）为复数。配置文件还允许指定多个细节：

除了标量之外，还可以在方括号内指定匿名数组。以下是**`@searches`**的一些更多指令：

**`archivedir`**

轮转日志文件的存档目录。默认是日志文件所在的目录。

**`type`**

指定日志文件的类型：如果设置了参数**`rotation`**，则默认接受**`rotation`**。**`simple`**描述没有轮转的日志文件，**`check_logfiles`**不会继续搜索归档文件。**`virtual`**表示应该从开始搜索的文件，例如 Linux 中的**`/proc`**目录中的套接字或文件。对于 AIX，选项**`errpt`**也可用：插件现在搜索**`errpt`**命令的输出，而不是真实文件。

**`criticalpatterns`**

与命令行选项**`--criticalpattern`**类似，但现在可以指定多个表达式作为数组：

感叹号确保如果没有找到包含文本**`dontcryforme`**的行，则状态为 CRITICAL。

**`criticalexceptions`**

与**`criticalpatterns`**类似，但作为例外：如果一行匹配**`criticalpatterns`**中的表达式，则会触发 CRITICAL 状态。如果**`criticalexceptions`**中的表达式也匹配此行，则停止临界状态。该指令用于拦截特殊情况。

**`criticalthreshold`**

设置一个阈值。例如，值**`5`**表示只有来自**`criticalpatterns`**的每第五个匹配项才真正被计为 CRITICAL。低于此阈值，结果保持为 OK。

**`warningpatterns`**

与**`criticalpatterns`**类似，但针对警告。

**`warningexceptions`**

与**`criticalexceptions`**类似，但针对警告。

**`warningthreshold`**

与**`criticalthreshold`**类似，但针对警告。

**`okpatterns`**

有时错误可以自行纠正。在这种情况下，管理员不希望被不必要的警报唤醒。

**`okpatterns`**取消所有之前的 WARNINGs 和 CRITICALs。可以指定多个细节（见**`criticalpatterns`**）。

**`script`**

允许在找到匹配项时执行脚本。以下指令补充了这一点：**`scriptparams`**将额外的命令行选项传递给脚本，**`scriptstdin`**允许指定脚本期望的 STDIN 字符串，而**`scriptdelay`**强制**`check_logfiles`**在脚本执行后暂停。

**`options`**

此指令允许进一步设置选项，其含义可以通过在选项前放置前缀**`no`**来否定：

**`script`**

执行指定的脚本。默认是**`noscript`**。

**`smartscript`**

控制脚本的返回值及其输出是否应包含在匹配列表中。默认是**`nosmartscript`**。

**`supersmartscript`**

定义了脚本的返回值和输出是否应该替换之前的匹配（默认是**`nosupersmartscript`**）。例如，脚本的返回值**`0`**（OK）将抑制一个找到的匹配项，通过覆盖通常由**`check_logfiles`**返回的返回值。

**`protocol`**

控制是否将匹配项保留在单独的日志文件中。（默认是**`protocol`**）。

**`count`**

是否应该计数匹配项？**`count`**是默认值。如果使用**`nocount`**关闭此选项，你仍然可以使用**`check_logfiles`**来仅执行脚本。

**`syslogserver`**

对应于**`--syslogserver`**选项（默认是**`nosyslogserver`**）。

**`syslogclient=string`**

与**`--syslogclient`**类似，但可以指定一个额外的过滤器，例如，仅搜索特定客户端的文件（默认是**`nosyslogclient`**）。

**`perfdata`**

是否应该显示性能数据？默认是**`perfdata`**。

**`logfilenocry`**

如果日志文件不存在，**`check_logfiles`**将输出 UNKNOWN，按照默认的**`logfilenocry`**。参数**`nologfilenocry`**告诉插件如果日志文件缺失则省略错误信息。

**`case nocase`**

忽略大小写。默认情况下，带有大小写的情况与这种情况相反。

**`sticky=seconds`**

使用此选项**`check_logfiles`**会注意到指定时间内的错误状态。通常，后续的检查如果没有找到更多匹配项，将返回 OK，这样管理员可能会忽略一个重要的条目。

假设你只有在日志文件中没有更多匹配项两小时后才接受休战。那么使用**`sticky=7200`**的检查将宣布一个错误状态长达两小时。只有在这一时期过后，如果在此期间没有新的条目重新启动两小时的时间限制，**`check_logfiles`**才会返回 OK。

如果搜索模式包含**`okpattern`**，**`check_logfiles`**将在匹配后直接返回 OK，即在指定时间到期之前。

**`savethresholdcount`**

如果事件没有达到**`*threshold`**选项中要求的匹配数量，则不会宣布错误。这里的问题是整体上应该如何处理匹配。**`savethresholdcount`**（默认值）将匹配数量保存到下一次检查，并将这些数量相加，直到达到阈值并触发错误。**`nosavethresholdcount`**参数防止事件计数器在两次检查之间总是重置为零。

本书不涉及所有可能的**`check_logfiles`**应用。因此，我们参考**`check_logfiles`**网站上的文档，该文档有德语和英语版本.^([78])

* * *

^([74]) [`www.nagiosexchange.org/54;279`](http://www.nagiosexchange.org/54;279)

^([75]) 以 Perl 兼容正则表达式（PCRE，见**`man perlre`**）的形式，因为**`check_logs.pi`**是一个 Perl 脚本。

^([76]) [`www.consol.de/opensource/nagios/check-logfiles`](http://www.consol.de/opensource/nagios/check-logfiles)

^([77]) 我们假设**`daemon`**功能以**`info`**优先级记录在**`/var/log/messages`**中。然而，这取决于发行版。在 Debian 中，此类条目位于**`/var/log/daemon.log`**。

^([78]) [`www.consol.com/opensource/nagios/check-logfiles`](http://www.consol.com/opensource/nagios/check-logfiles)

# 7.6 监控登录用户数量

插件**`check_users`**用于监控登录用户数量：

它只有两个选项：

**`-w`** **``*`number`*``** **`/ --warning=`****``*`number`*``**

这是登录用户数量的阈值，超过这个阈值后插件应该发出警告。

**`-c`** **``*`number`*``** **`/ --critical=`****``*`number`*``**

这是临界状态的阈值，通过登录用户数量来衡量。

**`|`**后面的性能数据通常仅在命令行中可见；Nagios 不会将其包含在 Web 界面中。

# 7.7 检查系统时间

## 7.7.1 通过 NTP 检查系统时间

两个插件**`check_ntp`**和**`check_ntp_time`**比较本地计算机的时钟时间与网络中可用的 NTP 服务器的时间。如果 Nagios 服务器通过 NTP 准确到足以作为参考，那么它也可以用作网络插件，前提是网络中要检查的主机已安装 NTP 守护进程。

从插件版本 1.4.11 开始，插件 **`check_ntp_time`** 和 **`check_ntp_peer`** (6.12 使用 check_ntp_peer 检查 NTP 服务器健康, 第 154 页)) 替换了 **`check_ntp`**，它包含两个功能：将本地系统时间与这里描述的 NTP 服务器进行比较，以及检查 NTP 服务器本身的健康状态。这里的选项适用于 **`check_ntp`** 和 **`check_ntp_time`**。

在最简单的情况下，**`check_ntp`** 被调用，指定了计算机（此处：**`ntpserver`**），其时间应与本地计算机的时间进行比较：

这里确定的偏差仅为 9.5 毫秒，这是一个很好的值。可以容忍的偏差大小取决于特定的用途。如果您想比较几个不同计算机的日志文件条目，它们应该进行 NTP 同步。然后您当然可以使用 **`-w 1 -c 2`**，即分配两秒的偏差作为临界值。在使用 Kerberos 进行身份验证的环境中，所有涉及的主机的时间同步也很重要，但并不那么关键：Windows Server 2003 下的 Microsoft Active Directory 可以容忍最大五分钟的偏差，只有在出现更大的偏差时才会真正出现问题。

**`check_ntp_time`** 和 **`check_ntp`** 具有以下选项：

**`-H`** **``*`地址`*``** **`/ --host=`****``*`地址`*``**

这是插件应该与之比较本地系统时间的 NTP 服务器。

**`-p`** **``*`端口`*``** **`/ --port=`****``*`端口`*``**

NTP 服务器运行的 UDP 端口。默认端口为 **`123`**。

**`-w`** **``*`阈值`*``** **`/ --warning=`****``*`阈值`*``**

这是警告限制，按照标准阈值格式指定（24.1.5 指定阈值, 第 557 页）。如果本地系统时间的波动大于指定的阈值，则发出警告。默认值为 60 秒。

**`-c`** **``*`阈值`*``** **`/ --critical=`****``*`阈值`*``**

以秒为单位的临界阈值，按照标准阈值格式指定（24.1.5 指定阈值, 第 557 页）。如果本地系统时间与 NTP 服务器的时间偏差超过给定的秒数（默认设置 120 秒），状态变为 CRITICAL。

**`-q / --quiet`** (仅 **`check_ntp_time`**)

如果 NTP 服务器由于任何原因不提供偏移量，则返回 UNKNOWN 而不是 CRITICAL。

## 7.7.2 使用时间协议检查系统时间

除了*网络时间协议* NTP 之外，还有另一个更老、更简单的协议：RFC 868 中描述的*时间协议*，其中通信通过 TCP 端口 37 进行。在许多 Unix 系统中，相应的服务器集成到 inet 守护进程，因此您不需要启动单独的守护进程。使用**`check_time`**，Nagios 提供了一个适当的测试插件。

**`check_time`**也可以用作网络插件，类似于**`check_ntp`**，但这也假设每个客户端都可用时间服务。因此，在大多数情况下，它将用作本地插件，将其自己的时钟时间与中央时间服务器的时间进行比较（此处：**`timesrv`**）：

**`|`**符号后面的性能数据，在 Web 界面中未显示，包含以秒为单位的响应时间，**`time`**（此处：零秒）；**`offset`**描述时钟时间与时间服务器时间差异的程度（此处：**`1160`**秒）。其他值，每个值由分号分隔，提供警告限制、关键阈值和最小值（另见 19.1 使用 Nagios 处理插件性能数据，第 404 页）。由于我们没有使用**`-W`**或**`-C`**选项设置任何阈值值，因此**`time`**的相应条目为空。

**`check_time`**有以下选项：

**`-H`** **``*`地址`*``** **`/ --主机名=`****``*`地址`*``**

这是时间服务器的计算机名或 IP 地址。

**`-p`** **``*`端口`*``** **`/ --端口=`****``*`端口`*``**

这是 TCP 端口指定，如果与默认的**`37`**不同。

**`-u / --udp`**

通常通过 TCP 查询时间服务器。使用**`-u`**，如果服务器支持，可以使用 UDP。

**`-w`** **``*`整数`*``** **`/ --警告偏差=`****``*`整数`*``**

如果本地时间与时间服务器的时间差异超过**``*`整数`*``**秒，插件返回 WARNING。**``*`整数`*``**始终为正数，这涵盖了运行速度慢和快的时钟。

**`-c`** **``*`整数`*``** **`/ --关键偏差=`****``*`整数`*``**

如果本地时间和时间服务器时间之间的差异超过**``*`整数`*``**秒，该插件的返回值为 CRITICAL。

**`-W`** **``*`整数`*``** **`/ --警告连接=`****``*`整数`*``**

如果时间服务器需要超过**``*`整数`*``**秒的响应时间，则返回 WARNING。

**`-C`** **``*`整数`*``** **`/ --关键连接=`****``*`整数`*``**

如果时间服务器在**``*`整数`*``**秒内没有响应，插件将以 CRITICAL 返回值响应。

# 7.8 定期检查邮件队列状态

**`check_mailq`** 插件可以用来监控邮件服务器的邮件队列，以监控尚未投递的电子邮件。**`check_mailq`** 运行已安装的邮件服务的 **`mailq`** 程序。不幸的是，每个 MTA 对邮件队列的解释都不同，因此插件只能评估程序员考虑到的邮件服务的邮件队列。这些是：**`sendmail`**、**`qmail`**、**`postfix`** 和 **`exim`**。**`check_mailq`** 插件有以下选项：

**`-w`** **``*`number`*``** **`/ --warning=`****``*`number`*``**

如果邮件队列中至少有 **``*`number`*``** 封邮件，插件会发出警告。

**`-c`** **``*`number`*``** **`/ --critical=`****``*`number`*``**

一旦队列中有至少 **``*`number`*``** 封邮件等待投递，则达到临界状态。

**`-W`** **``*`number_of_domains`*``** **`/ --Warning=`****``*`number_of_domains`*``**

这是关于邮件队列中等待消息的接收者域数量的警告限制。因此 **`-W 3`** 如果队列中有任何邮件被发送到三个或更多不同的接收者域，则会发出警告。

**`-C`** **``*`number_of_domains`*``** **`/ --Critical=`****``*`number_of_domains`*``**

这是关于接收者域数量（如 **`-W`**）的临界阈值。

**`-M`** **``*`daemon`*``** **`/ --mailserver=`****``*`daemon`*``**（从版本 1.4 开始）

这指定了使用的邮件服务。**``*`daemon`*``** 的可能值是 **`sendmail`**（默认值）、**`qmail`**、**`postfix`** 和 **`exim`**。

**`-t`** **``*`timeout`*``** **`/ --timeout=`****``*`timeout`*``**

在 **``*`timeout`*``** 秒后，插件停止测试并返回 CRITICAL 状态。这里作为一个例外，默认值是 **`15`** 秒（通常为 10 秒）。

在以下示例中，如果队列中至少有五封邮件，Nagios 应该发出警告；如果数量达到十封，这里使用的 MTAs Postfix 的状态变为 CRITICAL：

由于队列是空的，**`check_mailq`** 在这里返回 OK。

# 7.9 监控文件的修改日期

使用 **`check_file_age`** 插件，您可以监控文件的最后修改日期，也可以监控其大小。在最简单的情况下，它只是运行要监控的文件名和路径：

在这里，由于设置的警告限制是 240 秒，临界限制是 600 秒，插件发出警告。文件的最后修改是在 376 秒前——即在警告范围内。

只有在显式指定文件大小的警告限制（选项 **`-W`**）时，**`check_file_age`** 才会考虑文件大小。然后，如果文件小于给定的限制（以字节为单位），插件可以发出警告。这里的警告和临界限制的默认值都是零字节。

**`check_file_age`** 具有以下选项：

**`-w`** **``*`整数`*``** **`/ --warning-age=`****``*`整数`*``**

如果文件比 **``*`整数`*``**^([79])（默认为 **`240`**）秒旧，插件会发出警告。

**`-c`** **``*`整数`*``** **`/ --critical-age=`****``*`整数`*``**

如果文件比 **``*`整数`*``**（默认：**`600`**）秒旧，则会发生临界状态。

**`-W`** **``*`大小`*``** **`/ --warning-size=`****``*`大小`*``**

如果文件小于 **``*`大小`*``** 字节，插件会发出警告。如果省略了选项，**`0`** 字节是限制。在这种情况下，**`check_file_age`** 不考虑文件大小。

**`-C`** **``*`大小`*``** **`/ --critical-size=`****``*`大小`*``**

如果文件大小小于 **``*`大小`*``** 字节，则会触发临界状态。默认值为 **`0`** 字节，这意味着文件大小被忽略。

**`-f`** **``*`文件`*``** **`/ --file=`****``*`文件`*``**

要测试的文件名。如果像上面的例子一样，您直接提供文件名作为参数，则可以省略此选项。

* * *

^([79]) 因为 **`check_file_age`** 是一个 Perl 脚本，所以在这种情况下指定整数或浮点小数没有关系。在文件系统中，秒的分数不起作用。

# 7.10 使用 apcupsd 监控不间断电源（UPS）

要监控来自 APC 公司的不间断电源（UPS），除了在 6.11 使用网络 UPS 工具监控 UPS 中描述的网络 UPS 工具外，还可以使用专门针对这些 UPS 优化的 **`apcupsd`** 守护进程。软件可以从 [`www.apcupsd.com/`](http://www.apcupsd.com/) 获取，并且尽管它依赖于供应商，但遵循 GPL 许可。

主要功能是在断电事件发生时能够关闭系统，而不仅仅是 Nagios 的监控功能。对于后者，配置网络 UPS 工具更容易。

几乎所有 Linux 发行版都包含一个可用的 **`apcupsd`** 软件包，^([80]) 因此您无需担心安装问题。Nagios 不包含 **`apcupsd`** 插件，但有一个非常简单且有效的脚本可供下载，网址为 [`www.negativel.org/check_apc/`](http://www.negativel.org/check_apc/)：**`check_apc`**.^([81]) 它也遵循 GPL 许可，但没有网络功能。插件运行时不能指定主机，也不支持任何其他类型的选项。相反，内部命令控制其功能，这些命令作为第一个参数给出。

执行 **`check_apc status`** 测试 UPS 是否在线。如果是这样，插件返回 OK 状态，在其他所有情况下返回 CRITICAL：

**`check_apc load`** **``*`warn crit`*``** 检查 UPS 当前的负载，并以最大容量的百分比显示。如果负载超过**``*`warn`*``**（以下示例中为 60%）指定的警告限制，则发出警告；如果负载超过**``*`crit`*``**（此处为 80%），则发出 CRITICAL。

UPS 的负载状态通过命令**`check_apc bcharge`** **``*`warn crit`*``**进行检查。在这里，警告限制**``*`warn`*``**和临界限制**``*`crit`*``**也以百分比给出。值**`100`**表示“完全加载”。插件相应地如果负载小于警告限制则发出警告，如果负载小于临界限制则发出 CRITICAL。

你可以使用**`check_apc time`** **``*`warn crit`*``**来找出存储的电能可以维持多长时间。在这里，如果剩余时间少于**``*`warn`*``**分钟，则**`check_apc`**发出警告；如果剩余时间少于**``*`crit`*``**分钟，则发出 CRITICAL。

* * *

^([80]) 至少 SuSE 和 Debian 使用这个包名。

^([81]) 它也可以在以下位置获得：[`www.nagiosexchange.org/54;615`](http://www.nagiosexchange.org/54;615)。

# 7.11 Nagios 自我监控

如果需要，Nagios 甚至可以自我监控：包含的插件**`check_nagios`**一方面测试 Nagios 进程是否正在运行，另一方面测试 Nagios **`var`** 目录中日志文件**`nagios.log`**的年龄，例如，**`/var/nagios/nagios.log`**。

尽管如此，这个问题需要被提出：如果 Nagios 本身没有运行，那么系统就无法执行插件，进而无法传递错误信息。解决这个问题的方法是拥有两个 Nagios 服务器，每个服务器都通过 NRPE（见第十章，第 213 页的“Nagios 远程插件执行器（NRPE）”）来处理对方服务器上本地安装的插件。

如果你只有一个 Nagios 服务器，你也可以通过 cron 单独运行**`check_nagios`**，并使用 shell 脚本来检查返回值。在这种情况下，你自己采取行动，如 7.11.1 使用脚本手动运行插件中所示，以便你得到适当的告知。

插件有以下选项：

**`-C`** **``*`/path/to/nagios`*``** **`/ --command=`****``*`/path/to/nagios`*``**

这是完整的 nagios 命令，包括路径（例如，**`-C /usr/local/nagios/bin/nagios`**）。

**`-F`** **``*`/path/to/logfile`*``** **`/ --filename=`****``*`/path/to/logfile`*``**

这是 Nagios 日志文件**`nagios.log`**的保存路径。该文件位于 Nagios 的**`var`**目录中。

**`-e`** **``*`integer`*``** **`/ --expires=`****``*`integer`*``**

这是日志文件的最大年龄。如果文件在超过**``*`integer`*``**分钟内没有发生变化，**`check_nagios`**将发出警告。

你应该确保这个时间指定足够大：如果没有当前错误发生，Nagios 不会在日志文件中记录任何内容。获取常规条目的唯一可靠方法是使用配置文件**`nagios.cfg`**中的参数**`retention_update_interval`**（见 A.1 主配置文件 nagios.cfg）。默认值是 60 分钟。

在以下示例中，日志文件不应超过 60 分钟（这对应于默认的*保留更新间隔*；见 A.1 主配置文件 nagios.cfg)：

在一个运行中的 Nagios 进程和一个最后更改了 183 秒（大约三分钟）的日志文件的情况下，这里一切正常。如果省略了**`-e`**参数，插件总是给出警告。

## 7.11.1 使用脚本手动运行插件

以下示例脚本演示了如何在 Nagios 环境外调用插件。它最初像 Nagios 一样启动**`check_nagios`**，然后评估返回值。如果状态不是**`0`**，它将使用外部**`mailx`**程序给管理员 nagios-admin@example.com 发送电子邮件：

可以通过 cron 作业定期运行此脚本——例如每 15 分钟一次。但这样它也会每隔一刻钟就通过电子邮件“打扰”管理员。在这方面肯定有改进的空间——但这将超出本书的范围。

# 7.12 使用 LM Sensors 进行硬件检查

现代主板配备了传感器，允许你检查系统的“健康”状态。在**`lm-sensors`**^([82])项目中，在 Linux 中也可以通过 I2C 或 SMBus（*系统管理总线*，I2C 的一个特殊情况）查询这些数据。

要启用此功能，内核必须有一个合适的驱动程序。2.4.x 内核通常需要额外的模块，这些模块包含在软件中.^([83]) 有一些运气的话，你的发行版可能包含预编译的模块（例如，SUSE）。然而，2.6 内核已经包含了许多驱动程序；在这里，你只需编译以下整个分支**`I2C Hardware Sensors Chip support`**。

在这里详细说明必要模块的安装会占用太多空间。因此，我们只对**`check_sensors`**插件进行详细说明，并假设相应的内核驱动程序已经作为模块加载。在操作过程中，**`lm-sensors`**包中的**`sensors-detect`**程序会提供帮助，该程序执行一系列测试，然后告诉您需要加载哪些模块。如果所有要求都得到满足，运行**`sensors`**程序将产生类似于以下输出的结果，并显示板载传感器正在提供数据：

输出取决于硬件，因此对于每台计算机都会略有不同。例如，您可以看到 CPU 和主板温度（41 和 45 摄氏度），风扇的转速，以及 12 伏和 5 伏电路和电池上的电压。根据板设计和生产商的不同，某些详细信息可能缺失；在这个例子中，只有电源风扇**`FAN1/PS`**^([84])提供了信息；**`Fan3/AUX`**指的是计算机箱内的额外风扇，尽管它在运行，但芯片组没有记录。

除了标准选项**`-h`**（帮助功能）、**`-v`**（详细），它显示传感器的响应，以及**`-V`**，它显示插件版本之外，插件本身没有特殊选项。警告和临界限制必须通过**`lm-sensors`**配置设置。**`check_sensors`**只返回板载传感器的状态：

如果使用**`-v`**选项调用，您可以更清楚地看到测试是否工作：

输出行仅为了打印目的而换行；插件在单行上显示详细信息。

或者，您可以使用 SNMP 来访问传感器数据：NET-SNMP 软件包（见第 234 页的 11.2 NET-SNMP）提供了**`lm-sensors`**提供的数据，并且通过 SNMP 插件**`check_snmp`**，还可以从 Nagios 设置警告限制。这种解决方案在 11.3.1 通用 SNMP 插件 check_snmp 中描述，见第 246 页。

* * *

^([82]) [`www.lm-sensors.nu/`](http://www.lm-sensors.nu/)

^([83]) [`secure.netroedge.com/˜lm78/download.html`](http://secure.netroedge.com/%CB%9Clm78/download.html)

^([84]) PS 代表**电源供应**；但显示的名称可以在**`/etc/sensors.conf`**中进行编辑。

# 第八章. 特殊任务插件

许多插件实际上并不适合本地检查与远程检查的分类，因为它们本身不检测操作系统状态，而是操作其他检查的结果或将它们总结成新的结果。这些包括始终返回固定结果的插件**`check_dummy`**，以创建一个为测试场景定义良好的环境。

**`negate`**（取消返回值）和**`urlize`**（将超链接添加到文本输出）操作输出。总结和处理检查结果是**`check_cluster`**和**`check_multi`**的任务。其中**`check_cluster`**仅组合和评估现有状态，而**`check_multi`**则直接调用指定的插件并组合其结果。

# 8.1 用于测试的虚拟插件

对于预期以定义响应结束的测试，可以使用**`check_dummy`**插件。它被赋予一个返回值和所需的响应文本作为参数，并精确地提供这两个响应作为结果：

输出行包含定义的响应，前面是文本形式的状况。返回值可以通过**`echo $?: 1`**再次检查，其中**`1`**代表 WARNING。

或者，你可以给**`check_dummy`**一个**`0`**（OK）、**`2`**（CRITICAL）或**`3`**（UNKNOWN）作为第一个参数。第二个参数，响应文本，是可选的。

# 8.2 取消插件结果

在某些情况下，你可能想测试标准插件通常测试的相反情况，例如一个不应激活的接口，一个不应通常可达的网页或主机。在这些情况下，Nagios 插件中包含的**`negate`**程序提供了一种取消原始检查返回值的方法。

与插件类似，**`negate`**有一个选项可以指定秒数作为超时时间，使用**`-t`**，之后应终止操作。实际的命令行必须始终包含插件的全路径：

**`negate`**将**`2`**（CRITICAL）的返回值改为**`0`**（OK），反之亦然。返回代码**`1`**（WARNING）和**`3`**（UNKNOWN）保持不变。

以下示例在主机**`192.0.2.1`**上执行**`check_icmp`**，在正常情况下不应可达：

在这种情况下，插件本身返回一个 CRITICAL 状态和相应的文本。**`negate`**“反转”返回值；**`2`**（CRITICAL）变为**`0`**（OK）。由于文本来自插件且未更改，因此信息**`CRITICAL`**仍然在这里。然而，对于 Nagios 本身来说，只有返回值才是任何感兴趣的。

# 8.3 使用**`urlize`**插入超链接

如果需要，程序**`urlize`**将插件文本输出表示为超链接，这样在 Nagios Web 界面上点击测试结果就会带你到另一个网页。与**`negate`**类似，**`urlize`**作为正常插件命令的包装器，包含在其他 Nagios 插件中。

作为第一个参数，它期望一个有效的 URL，该 URL 是超链接应指向的位置。之后是插件命令，包括其路径：

为了避免插件参数中的空格问题，您可以设置完整的

**``*`插件命令`*``**用双引号括起来。

当手动运行命令时，可以轻松地识别围绕正常插件输出的超链接：

在版本 1.4 中，**`urlize`**也将性能输出嵌入到链接文本中，但 Nagios 在 Web 界面的表示之前将其截断，包括结束标签。但大多数浏览器对缺失的**`</A>`**没有问题。

# 8.4 将主机或服务集群作为一个实体进行检查

插件通常检查单个主机或服务，将结果与指定的阈值进行比较，然后返回适当的结果。在冗余设计系统（如集群）中，您也可以单独检查相应的主机或服务。此外，对虚拟主机或服务的检查可以提供有关整个虚拟系统是否可访问的线索。插件**`check_cluster`**允许查询更复杂的价值。

例如，我们将以一个由五个相同单系统组成的主机集群为例。这些主机中的一个可能没有任何问题就失败了，但如果第二个失败了，插件应该发出 WARNING。如果第三个主机应该失败，则肯定应该发出 CRITICAL 信号。

**`check_cluster`**的特殊之处在于它本身不主动执行检查，而是从所需的主机或服务已存在的状态值中确定返回值。为此，它使用按需宏（参见第 632 页的 D.2 按需宏）。与标准宏始终引用当前主机或服务相比，这对于**`check_cluster`**显然意义不大，按需宏允许访问其他主机或服务的所有现有信息。

对于**`check_cluster`**，我们需要各种主机或服务的状态。这些可以通过按需宏**`$HOSTSTATEID:`**和**`$SERVICESTATEID:`**确定。它们都提供相应的状态，以数值形式表示：**`0`**表示 OK；对于主机，**`1`**表示 DOWN，**`2`**表示 UNREACHABLE；对于服务，**`1`**表示 WARNING，**`2`**表示 CRITICAL，**`3`**表示 UNKNOWN).^([85]) 在每种情况下，都必须指定主机名，并且对于**`$SERVICESTATEID$`**，还必须给出从 Nagios 获取值的宿主或服务的服务描述。

插件有以下选项：

**`-s / --service`**

将状态值作为服务检查的结果处理，即**`0`**表示 OK，**`1`**表示 WARNING，**`2`**表示 CRITICAL

**`-h / --host`**

将状态值作为主机检查的结果处理，即**`0`**表示 UP，**`1`**表示 DOWN，**`2`**表示 UNREACHABLE

**`-l`** **``*`label`*``** **`/ --label=`****``*`label`*``**

将指定的文本 **``*`label`*``** 插入到文本输出中

**`-d`** **``*`statusliste`*``** **`/ --data=`****``*`statusliste`*``**

以逗号分隔的状态列表，从这些状态中确定总结果；这里使用已提到的宏：

**`-w`** **``*`schwellwert`*``** **`/ --warning=`****``*`schwellwert`*``**

警告阈值在阈值格式中，^([86]) 与错误状态的数量相关。所以通过指定 **`-w 0:2`**，允许最多两个错误状态为 OK 结果。从第三个错误状态开始，将发出警告。

**`-c`** **``*`threshold`*``** **`/ --critical=`****``*`threshold`*``**

与 **`--warning`** 类似，但指的是关键阈值

以下调用模拟了五个现有 Web 服务器中两个发生故障的情况。第三个服务器显示警告。这意味着我们总共有三个错误状态：

检查发出警告，因为超过了警告阈值（即使关键阈值没有）。**`check_cluster`** 命令的定义保持简单：

命令期望一个标签作为第一个参数，并将插件将其添加到文本输出之前。其他所有内容都在第二个参数中定义，在主机或服务定义中：

服务 **`Web Cluster`** 检查两个服务 **`srv1:HTTP`** 和 **`srv2:HTTP`** 的服务状态。只要它们都工作正常且无错误，命令将返回 OK。如果存在错误状态，结果将是警告，如果两个服务都有错误，则返回 CRITICAL。

这完成了 **`check_cluster`** 的可能性。如果您对仅仅评估现有错误状态的数量不满意，您应该更仔细地查看插件 **`check_multi`**，它还允许 AND 和 OR 操作。

* * *

^([85]) 请参阅第 625 页的附录 D。

^([86]) 关于阈值的指定，请参阅第 557 页的 24.1.5 指定阈值。

# 8.5 使用 **`check_multi`** 汇总检查

将不同的检查组合成一个的原因有很多。一方面，它简化了 Nagios 的工作，因为现在系统只需要管理 1,000 个程序，而不是可能 20,000 个——这在许多情况下显著提高了性能。如果您远程汇总检查，Nagios 现在执行 1 次而不是 20 次网络查询，这导致更好的网络性能。Nagios 管理员也可能更容易配置，因为配置更简洁。

原计划用于负载分配和减少检查的方法是通过分布式 Nagios 实例。当然，有一些生产安装中，一个 Nagios 实例只执行 50 个检查并将这些检查传输到中央 Nagios 安装。如果有几百个 Nagios 实例，这种方法确实可以减轻中央 Nagios 安装的负载，但不会减轻管理员的工作负担，因为管理员需要管理大量的此类配置。

Matthias Flacke 编写的插件**`check_multi`**采取了不同的方法。它以去中心化的方式执行（几乎）任何数量的检查，并将结果的汇总仅返回给 Nagios 服务器（图 8-1）。该插件在远程执行；它可以通过 NRPE（第十章，第 213 页）或通过插件**`check_by_ssh`**（9.1 check_by_ssh 插件，第 206 页）来调用。

![使用 check_multi 汇总检查](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223808.png.jpg)

图 8-1. 使用`check_multi`汇总检查

在此过程中会丢失信息——最终，每个**`check_multi`**调用只能有一个返回值。但通过配置服务，你可以获得清晰度，并且意外地获得了一个很好的功能：必须执行的检查列在**`check_multi`**也安装的对应目标系统上的类似 NRPE 的配置文件中。这使得可以将某些任务，例如阈值维护，委托给其他（非 Nagios）管理员。他们需要访问相关的**`check_multi`**配置文件的写权限，但不需要继续与 Nagios 配置纠缠——除了正确运行所使用的插件之外。

为了传递尽可能多的信息，**`check_multi`**经常使用 Nagios 3.0 引入的多行插件输出格式（见 8.5.1 多行插件输出）。这基本上限制了**`check_multi`**的使用范围到 Nagios 3.0。从**`check_multi`**版本 0.14 开始，已经有一些方法来支持 Nagios 2.x。然而，这些方法的使用有限，因为 Nagios 2.x 中插件的所有信息大约有 300 字节，并且只使用了插件输出的第一行。

## 8.5.1 多行插件输出

从 Nagios 3.0 开始，引入了插件扩展输出格式。而不是将所有内容挤在单行上，输出可以扩展到多行：

第一行包含标准文本输出，如果需要，还会补充性能数据。这一行仍然可以被 Nagios 2.x 处理，因此它不应该超过 300 字节。在随后的行中，插件可以提供其他文本信息，直到字符 **`|`** 关闭文本输出，并允许写入其他性能数据。Nagios 3.0 在 Web 界面上的 **`extinfo.cgi`** 生成的状态信息中显示整个文本信息（参见第 339 页的 16.2.2 额外信息和控制中心：extinfo.cgi）。

当通过宏访问文本信息时（参见第 627 页的 D.1 标准宏），Nagios 将信息分成两个宏：**`$HOSTOUTPUT$`** 包含主机检查的文本信息的第一行（即占位符 **``*`normal text output`*``** 的内容），而 **`$LONGHOSTOUTPUT$`** 只包含长文本。对于服务检查，宏称为 **`$SERVICEOUTPUT$`** 和 **`$LONGSERVICEOUTPUT$`**。宏的 **`LONG*`** 变体仅在 Nagios 3.0 及以后版本中可用；Nagios 2.x 只知道短版本。

Nagios 3.0 将第一行和末尾的性能数据汇总到宏 **`$HOSTPERFDATA$`** 和 **`$SERVICEPERFDATA$`** 中。没有 **`LONG*`** 变体，正如输出那样。

在 Nagios 3.0 中，整个输出（包括性能数据）最长为 8 KB。如果 Nagios 直接运行插件，而不是间接运行（例如，通过 NRPE 或 **`check_by_ssh`**），你必须确保整个 8 KB 确实通过了整个传输路径。这已在 8.5.2 安装要求 中说明。

## 8.5.2 安装要求

**`check_multi`** 对其输出的尺寸没有限制。为了支持足够的检查，你应该确保所有使用的资源都允许至少 8 KB 的插件输出。对于 Nagios 3.0 版本，开发人员已将缓冲区大小增加到 8 KB，因此不需要调整。对于涉及 NRPE 或 **`check_by_ssh`** 的远程使用场景，你可能需要手动调整。

### 调整 NRPE 的缓冲区大小

默认情况下，NRPE (第十章"), 第 213 页) 传输不超过 1,024 个字符。为了正确使用 **`check_multi`**，你需要调整源代码中的缓冲区大小。为此，你需要在文件 **`include/common.h`** 中设置适当的值为 **`8192`**：

之后，你必须重新编译和重新安装 NRPE 守护进程和 **`check_nrpe`** 插件。

### 调整 **`check_by_ssh`** 的缓冲区大小

插件**`check_by_ssh`**(9.1 check_by_ssh 插件，第 206 页)可以处理版本 1.4.10 及更高版本的插件的多行输出，因此可以不修改直接使用。对于旧版本，需要补丁，可以在**`check_multi`**主页上找到.^([87])

## 8.5.3 安装和测试

在从非常详尽的、有良好文档的首页下载插件后，^([88])你应该在任何目录中解压缩它，然后切换到该目录以执行初始测试。在源代码的**`contrib`**子目录中有一个预配置的文件，**`check_multi.cmd`**，其中包含几个示例检查。在运行插件时，使用选项**`-f`**指定此文件；**`check_multi`**将一次性执行那里定义的所有检查。此输出让你对插件的功能有了一定的感觉：

输出的第一行——以**`MULTI CRITICAL`**开头——总结了所有已执行的检查。这些行（为了显示目的而换行）也由 Nagios 2.x 处理。单个检查的输出从第 2 行开始（以**`[ 1]`**开头），这与当前正在运行的插件的单次调用输出完全相同。性能数据由**`check_multi`**总结，但仅在末尾的总计行中——以**`| MULTI::check_multi::plugins`**开头。各个变量由空格分隔。变量名称的目的，以及它们的格式（需要一些时间来适应），在 8.5.6 性能数据和 PNP 的第 198 页中解释。

## 8.5.4 配置文件

配置文件的格式基于 NRPE 的格式(10.3 监控计算机上的 NRPE 配置，第 218 页)。然而，对于**`check_multi`**，只定义了命令。以下是包含的示例文件摘录，**`check_multi.cmd`**：

命令**`command[`** **``*`Name_of_check`* ]``**指定了相应检查的名称。这在文本输出和性能数据中使用。

等号后面是执行的检查。在调用插件时，如果插件位于默认路径**`/usr/local/nagios/libexec`**，则可以省略路径细节。或者，在运行**`check_multi`**时，可以使用选项**`−1`**包含插件路径。当然，你还可以在配置文件中指定绝对路径。

## 8.5.5 命令行参数

**`check_multi`**有以下选项：

**`-f`** **``*`/path/to/config/file`*``** **`/ --filename=`****``*`/path/to/config/file`*``**

这指定了配置文件。为了使 Nagios 能够找到它，您应该始终指定完整的路径。此选项没有默认值；它可以多次指定。

**`-l`** **``*`/path/to/the/plugins`*``** **`/ --libexec=`****``*`/path/to/the/plugins`*``**

调用插件的默认路径是 **`/usr/local/nagios/libexec`**。如果它们位于不同的目录中，可以使用 **`-l`** 选项在这里指定。

**`-n`** **``*`name`*``** **`/ --name=`****``*`name`*``**

这是 **`check_multi`** 在文本输出和性能数据中输出的检查名称。默认为空字符串。如果您在机器上多次运行 **`check_multi`** 并使用不同的检查，这里最好使用不同的名称，以便它们之间更加清晰地区分开来。

**`-t`** **``*`sekunden`*``** **`/ --timeout=`****``*`seconds`*``**

这指定了单个检查的超时时间。默认为 **`10`** 秒。

**`-T`** **``*`seconds`*``** **`/ --TIMEOUT=`****``*`seconds`*``**

对于所有检查一起，**`check_multi`** 需要一个额外的超时参数，该参数通过 **`-T`** (默认为 **`60`** 秒) 定义。

这确保了 **`check_multi`** 的调用将在指定的时间内结束。如果单个插件启动时间和超时超过了整个 **`check_multi`** 调用的超时，插件将不会启动任何新的检查。^([[89]) 这样的单个检查将被赋予未知状态；在输出中，**`check_multi`** 将它们分配给消息 **`plugin cancelled due to global timeout`**。

**`-r`** **``*`integer`*``** **`/ --report=`****``*`integer`*``**

此选项控制 **`check_multi`** 的输出行为。占位符 **``*`integer`*``** 可以取以下值：

+   **`1`** 在插件输出中包含括号内的服务名称以表示错误状态：

    ```
    ..., 2 critical (network_rsync, proc_acpid), 1 warning (nagios_tac), 1 unknown
     (if_eth1), dummy_unknown), 24 ok
    ```

+   **`2`** 将输出格式化为 HTML。在这里，存储了单个检查的编号（例如，[ **`3`**]）以及相应的返回值颜色（绿色表示 OK，黄色表示 WARNING，红色表示 CRITICAL，橙色表示 UNKNOWN）。

    如果您递归地使用 **`check_multi`**（一个 **`check_multi`** 本身调用其他 **`check_multi`** 实例），则下属检查的输出将缩进（见第 202 页的图 8-3）。

+   **`4`** 如果存在，则在 STD-ERR 上显示单个检查的输出。

+   **`8`** 以多格式输出性能数据（见第 8.5.6 节“性能数据和 PNP”，第 198 页）。

+   **`16`** 与 **`1`** 有相同的功能，除了对于没有检查结果的状态（例如，**`0 unknown`**）也会包括在内。

+   **`32`** 以经典格式输出性能数据（见 8.5.6 性能数据和 PNP）。

+   **`128`** 通过包含一个指向已安装的 PNP 的超链接来扩展了**`2`**所需的 HTML 格式，如果可用性能数据且输出为多格式（**`8`**）。PNP 在 19.6 使用 PNP 进行平滑绘图的第 446 页进行描述。

+   **`256`** 以 XML 格式显示输出。

+   **`512`** 确保输出与 Nagios 2.x 兼容，以便将输出控制在 300 字节限制以下。

可以组合单个值；默认为 13（8 + 4 + 1）。

**`-w`** **``*`expression`*``** **`/ --warning=`****``*`expression`*``**

如果**``*`expression`*``**为真，则设置状态为 WARNING，例如**`COUNT (WARNING) > 0`**（默认）。对于所有状态，**`check_multi`**分别检查相应的状态是否已确定。最终，具有最高优先级的状态获胜：CRITICAL 胜过 WARNING，胜过 UNKNOWN，胜过 OK。表达式定义和使用的说明见 8.5.7 简单业务流程监控的第 199 页。

**`-c`** **``*`ausdruck`*``** **`/ --critical=`****``*`expression`*``**

如果表达式为真，则将状态设置为 CRITICAL。最终，具有最高优先级的状态获胜（见**`--warning`**和 8.5.7 简单业务流程监控）。

**`-u`** **``*`expression`*``** **`/ --unknown=`****``*`expression`*``**

如果表达式为真，则设置状态 UNKNOWN。具有最高优先级的状态（见**`--warning`**和 8.5.7 简单业务流程监控）获胜。

**`-o`** **``*`expression`*``** **`/ --ok=`****``*`expression`*``**

如果**``*`ausdruck`*``**为真，则设置状态 OK。在这里，具有最高优先级的状态也获胜（见**`--warning`**和 8.5.7 简单业务流程监控）。

**`-v / --verbose`**

这增加了插件的详细程度，以便进行调试。此选项最多可以使用三次；如果指定了三次，您将获得最详细的信息。

## 8.5.6 性能数据和 PNP

在性能数据的简单输出形式（可以通过选项**``*`-r`*``** **`32`**设置）中，**`check_multi`**简单地列出插件提供的所有变量：

在这个例子中，插件 **`check_icmp`**（平均响应时间 **``*`r`*``****`ta`** 和丢包率 **`pl`**）的性能数据无缝地跟随 **`check_ntp`** 的性能数据，形式为与本地系统时间的偏差（**`offset`**）。一开始你无法判断信息来自哪个插件——你必须查阅配置文件的顺序和各个检查的输出。

这并不特别适合自动处理。因此，**`check_multi`** 提供了默认选项 **``*`-r`*``****`8`** 的扩展输出，该选项专门修改以处理 PNP（参见第 446 页的 19.6 使用 PNP 进行平滑绘图）。在这种情况下，插件会将服务描述和所使用的插件名称添加到变量名称中。没有偏离标准化格式；标签只是给出了更广泛的形式：

PNP 需要有关已执行插件的详细信息，以便它可以选择一个合适的模板来处理图形（参见第 454 页的 19.6.5 图形应该如何显示？）。此外，**`check_multi`** 现在也提供了关于整体处理的性能数据：

首先 **`check_multi`** 宣布它已调用 **`5`** 个插件，并用了总共 0.18 秒来处理。随后是其他插件的性能数据，每个都补充了服务描述和插件名称。如果一个插件发出多个变量，则服务描述和插件名称不会重复。

## 8.5.7 简单业务流程监控

为了评估业务流程，你通常想知道某个特定流程是否在运行——例如，客户是否能够进行在线银行操作。所有涉及的主机和服务的个别信息从这个角度来看并不相关，而且在系统以不同形式冗余设计的情况下也并不总是有用的。

![要从互联网访问终端服务器农场，必须提供 OpenVPN 访问和终端服务器。](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223810.png.jpg)

图 8-2. 要从互联网访问终端服务器农场，必须提供 OpenVPN 访问和终端服务器。

一个例子显示在 图 8-2 中：在家办公的用户通过 OpenVPN 访问终端服务器农场。对于从互联网的访问，有两个连接可用，并且有 **`gate1`** 和 **`gate2`**，两个 OpenVPN 网关可用。终端服务器农场由八个终端服务器 **`ts01`** 到 **`ts08`** 组成。

为了让在家办公的用户能够工作，至少必须有一个互联网连接（包括伴随的网关）可用，并且服务器场必须可访问。业务流程可以分为两个过程：我们的例子将互联网访问与服务器场分开，然后可以使用一个过程将两个结果连接起来。

互联网访问处于关键状态的条件可以表述如下：

如果提供者不可达或（**`||`**）网关上没有可用的 OpenVPN 服务，则访问不可用。但如果两个接入点中的任何一个正在工作（因此使用 && 逻辑运算符），则足够了。语法来自 Perl，并且可以由 **`check_multi`** 同样处理。因此，用于互联网检查的配置文件包含四个命令和逻辑运算符：

两个 **`gate*`** 命令各自检查（通过 NRPE）OpenVPN 服务的网关是否正在运行。提供者测试向各自提供者的拨号路由器发送 ICMP 回显数据包。在这里，你应该非常小心，确保路由设置正确，即向各自提供者的 ICMP 数据包确实是通过伴随的连接发送的。

对于业务流程，配置文件中定义了单个状态的布尔表达式，因此根据需要，可能会有一个用于 CRITICAL，一个用于 WARNING，如果需要，还有一个用于 UNKNOWN。语法和运算符按照指定传递给 Perl，并在 Perl 在线文档（**`man`** **``*`per`*``****`lop`**）中详细描述。在评估表达式之前，**`check_multi`** 执行以下替换：

+   如果表达式中包含之前使用 **`command`** 定义的检查的名称，则将使用该检查的返回值。假设检查 **`gatel`** 返回 **`2`**，检查 **`providerl`** 返回 **`1`**。那么上述部分表达式将变为

    ```
    state [critical] = (2 > 1 || 1 > 1) ...
    ```

    在括号内，第一个条件为真，并通过随后的 OR（Perl 语法中的 **`||`**）操作，部分表达式评估为真。

+   函数 **`count`** 确定所有提供作为参数给出的返回值的检查的数量。

+   在表达式中，除了状态数值之外，还可以包含文本形式（UNKNOWN、WARNING、CRITICAL、WARNING、OK），（因此可以写类似 **`gate1 > WARNING`** 的内容）。这个细节在表达式评估之前由 **`check_multi`** 替换为数值。

当至少发生一个关键状态、至少一个检查返回未知或至少一个检查返回警告时，警告状态将在**`openvpn.cmd`**中设置。如果两个访问都应失败（因为括号中两个部分表达式之间的 AND 逻辑运算符），则会出现关键状态。如果**`gate`**或**`provider`**检查中的任何一个返回关键（返回值**`2`**）或未知（返回值**`3`**），则部分表达式本身为真。由于未知结果总是导致警告状态，因此可以省略未知状态的条件。

第二个部分过程——终端服务器农场的功能——在配置文件**`terminalserver.cmd`**中描述：

这里单独的检查仅包括对 RDP 端口 3389 的原始 TCP 检查，以保持示例相对简单。如果至少发生一个关键或至少一个未知，应指示警告，以便管理员有机会在早期修复问题。对于关键状态的条件规定，**`ts01`**不得为关键，因为那里运行着一个非常特定的应用程序，其他服务器上没有。此外，不超过三个终端服务器可能失败，否则其他服务器的负载可能会增加得如此之高，以至于无法进行有用的工作。

![Nagios Web 界面扩展信息页面上的 chech_multi 递归输出](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223812.png.jpg)

图 8-3. Nagios Web 界面扩展信息页面上的`chech_multi`递归输出

部分过程的两个检查通过一个**`check_multi`**调用汇总为一个单一的结果（以下行是为了显示目的而换行的）：

为了使 Nagios 的扩展信息页面（图 8-3)更具可读性，省略了各自的插件名称的细节（通过缺失的选项**`-n`**；**`check_multi`**的递归 HTML 输出添加了无论如何被调用的检查名称）。**`-r 31`**细节设置所有报告功能从 1 到 16，包括 HTML 格式（**``*`-r`*``** **`2`**）。没有为状态的特殊条件制定公式，因此部分过程的警告会导致上层检查的警告，而关键会导致关键。

图 8-3 清楚地显示了两个部分流程。检查的序列号与相应的状态颜色一起存储，遗憾的是，这些颜色在这本黑白书中不可见。在插件主页上可以找到复杂颜色示例的递归显示在扩展信息 Web 页面上.^([90])

为了完整性，以下是 Nagios 的命令和服务的定义。前者被故意保持简单，并且所有命令行的详细信息都在服务定义中重复：

如果使用**`check_multi`**对业务流程的映射不足以满足您的需求，您应该查看来自德国纽伦堡的 Sparda-Datenverarbeitung eG 提供的相对更复杂的插件*Nagios Business Process View and Nagios Business Impact Analysis*，该插件可在 Nagios-Exchange 上找到.^([91])

与仅作为唯一 Nagios 服务出现且只需由 Nagios 管理一次的**`check_multi`**不同，此插件使用 Nagios 中已定义的服务，这意味着 Nagios 会像往常一样执行每个单个检查。它检索单个检查的结果，将这些结果链接起来，并在自己的 Web 界面上显示。

在这样做的时候，这些链接（即业务流程）的结果可以在 Nagios 中重新定义为单独的服务，这样就可以使用 Nagios 的通知逻辑。此外，该插件还包括一个模式，可以模拟“如果发生什么情况”的情景。单个服务被设置为预期的状态，并且可以通过 Web 界面查看其效果。

因此，**`check_multi`**和 Nagios Business Process View 以及 Nagios Business Impact Analysis 插件并不相互竞争。根据预期的用途，**`check_multi`**将减少 Nagios 中表示的服务复杂性，从而减少执行的检查数量，或者插件将允许更详细地查看整体事件，尽管它要求在 Nagios 中单独映射所有服务。

* * *

^([87]) [`www.my-plugin.de/wiki/de/projects/check_multi/installation#c heck_by_ssh`](http://www.my-plugin.de/wiki/de/projects/check_multi/installation#c%20heck_by_ssh)

^([88]) [`www.my-plugin.de/wiki/de/projects/check_multi/start`](http://www.my-plugin.de/wiki/de/projects/check_multi/start)

^([89]) 假设自**`check_multi`**被调用以来已经过去了 53 分钟，但并非所有计划的单个检查都已完成。从开始时间和单个超时（53 + 10 = 63）的总和超过了**`check_multi`**调用的超时时间，因此**`check_multi`**不会启动任何进一步的检查。

^([90]) [`www.my-plugin.de/wiki/de/projects/check_multi/screenshot#ser-vice_extended_info_rekursiv`](http://www.my-plugin.de/wiki/de/projects/check_multi/screenshot#ser-vice_extended_info_rekursiv)

^([91]) [`www.nagioserchange.org/22;1088`](http://www.nagioserchange.org/22;1088)

# 第九章。通过 SSH 执行插件

本地插件，即仅在本地上运行测试的程序，因为不存在网络协议，必须在目标系统上安装并启动。它们检查进程、CPU 负载或剩余多少空闲硬盘容量，等等。

但是，如果您仍然想从 Nagios 服务器执行这些插件，建议您使用安全外壳，特别是如果测试的机器上安装了任何类型的 Unix 系统——在这样的目标系统上，Secure Shell 守护进程几乎总是运行的，并且您不需要任何特殊权限来运行大多数插件。Nagios 管理员只需要一个账户，他可以从 Nagios 服务器使用这个账户。在服务器本身，必须安装**`check_by_ssh`**插件。

在异构环境中，Secure Shell 本身常常会创建可能导致问题的条件：根据操作系统，可能正在使用一个返回错误返回代码^([92])的 SSH 守护进程，或者它太旧，无法处理 SSH 协议版本 2.0。在这种情况下，最好安装当前的 OpenSSH 版本.^([93]) 在纯 Linux 环境中，如果安装最新且维护良好，这些问题通常不会发生。

# 9.1 **`check_by_ssh`**插件

**`check_by_ssh`**在 Nagios 服务器上运行，并建立一个到远程计算机的 Secure Shell 连接，以便可以在其上执行本地测试。在远程机器上运行的程序在很大程度上是本地插件（参见第七章测试本地资源，第 157 页）；然而，**`check_by_ssh`**的使用并不仅限于这些。

插件向远程计算机发送完整的命令行，然后等待插件兼容的响应：一个介于**`0`**（OK）和**`3`**（UNKNOWN）之间的响应状态，以及一行文本信息供管理员使用（第六章）。

如果您通过**`check_by_ssh`**运行网络插件以在其他计算机上执行测试，这些被称为*间接检查*，将在 10.6 间接检查中解释，见第 224 页。

以下示例展示了如何使用**`check_by_ssh`**来检查目标计算机上的交换分区：

命令与安全外壳的命令类似，形式为

使用单独的私钥（不是主目录中的默认私钥）是可选的，并在 9.2 配置 SSH 中详细描述，从第 208 页开始。要运行的命令在 **`check_by_ssh`** 中指定——与安全的 shell **`ssh`** 相比——使用带有选项 **`-C`** 的命令，插件始终使用绝对路径。

**`check_by_sshhas`** 具有以下选项：

**`-H`** **``*`address`*``** **`/ --hostname=`****``*`address`*``**

插件应建立 SSH 连接的计算机的主机名或 IP 地址。

**`-C`** **``*`command`*``** **`/--command=`****``*`command`*``**

在远程计算机上运行的命令，即带有完整路径和所有必要参数的插件：

**`−1 /--proto1`**

强制使用 secure shell 协议的第 1 版。

**`−2 /--proto2`**

强制使用 secure shell 协议的第 2 版。

**`-o`** **``*`ssh_option`*``** **`/--ssh-option=`****``*`ssh_option`*``** (从版本 1.4.6)

将 SSH 选项传递给目标主机上的 Secure Shell。要指定多个选项，请重复使用开关。

**`-i`** **``*`keyfile`*``** **`/--ldentlty=`****``*`keyfile`*``**

应使用哪个文件代替包含用户 **`nagios`** 的私钥的标准密钥文件。有关一个推荐选项，请参阅 9.2.3 检查 SSH 连接和 check_by_ssh，第 210 页。

**`-p`** **``*`port`*``** **`/--port=`****``*`port`*``**

如果目标服务器上的 Secure Shell 守护进程没有监听标准 TCP 端口 22，则指定端口号。

**`-l`** **``*`user`*``** **`/--logname=`****``*`user`*``**

目标主机上的用户名。 [**`-S`** **``*`number`*``** /**``--skip-stdout=*`number`*``** (从版本 1.4.9)]

忽略 STDOUT 输出的指定行数。如果省略此选项，则忽略整个输出。

**`-E`** **``*`number`*``** **`/--skip-stderr=`****``*`lines`*``** (从版本 1.4.9)

与 **`--skip-stdout`** 类似，但仅指 STDERR 的输出。

**`-w`** **``*`floating_point_decimal`*``** **`/--warning=`****``*`floating_point_decimal`*``**

如果执行命令的响应时间超过 *浮点小数* 秒，插件将发出警告。

**`-c`** **``*`floating_point_decimal`*``** **`/--critical=`****``*`floating_point_decimal`*``**

关于要执行的命令响应时间的临界值（以秒为单位）。

**`-f`**^([94])

在不打开交互式终端（tty）的情况下启动后台进程。

**`-t`** *超时时间* /**`--timeout=`***超时时间*

超过 *超时时间* 秒后，插件停止测试并返回 CRITICAL 状态。默认为 **`10`** 秒。

除了这个之外，**`check_by_ssh`** 还有一些可用的参数，**`-o`**，**`-s`** 和 **`-n`**，这使得它能够以**被动模式**将结果写入**外部命令接口**（参见第 292 页的 13.1 外部命令接口）。这种模式之所以被命名为这种方式，是因为 Nagios 本身并不直接接收信息，而是从接口间接读取。

此过程的优势在于能够在单个 SSH 连接上同时运行多个独立的命令。然而，这可能会使命令定义相当复杂。由于插件本身是在目标服务器上作为程序调用和执行的，所以 SSH 连接建立一次或三次几乎无关紧要。因此，最好使用简单的命令定义而不是被动模式。

但是，如果您仍然想了解更多关于这个的信息，您可以在在线帮助中查找，该帮助是通过 **`check_by_ssh -h`** 调用的。

* * *

^([92]) 在 **`nagios-users`** 邮件列表中报告说 **`Sun_SSH_1.0`** 返回代码为 255 而不是 0，这使得它不适合此处描述的部署。

^([93]) [`www.openssh.org/`](http://www.openssh.org/)

^([94]) 目前没有此选项的长格式。

# 9.2 配置 SSH

为了使 Nagios 能够在远程和自动的情况下通过安全外壳运行插件，它——或者更严格地说，Nagios 服务器上的用户 **`nagios`**——不能被任何密码查询所打扰。这通过通过公钥机制进行登录来避免。

## 9.2.1 在 Nagios 服务器上生成 SSH 密钥对

执行此操作所需的关键对默认由密钥生成器 **`ssh-keygen`** 存储在相应用户主目录的子目录 **`.ssh`** 中（对于用户 **`nagios`**，这因此对应于第 39 页的 1.2 编译源代码中的安装指南，即 **`/usr/local/nagios`**）。如果它还通过 **`-f`** **`private_keyfile`** 选项（不指定路径）发送，它将落在当前工作目录中，在下面的例子中是 **`/etc/nagios/.ssh`**：

这里密钥的长度是 1024 位，使用 DSA 加密密钥。**`-N' '`** 确保私钥在 **`id_dsa`** 中不接收单独的密码保护：此选项强制使用空密码。

## 9.2.2 在目标主机上设置用户 **`nagios`**

与 Nagios 服务器上的配置类似，被监控计算机上的组和用户 **`nagios`** 也被设置：

目标计算机被分配了目录 **`/home/nagios`** 作为主目录，其中创建了一个子目录 **`.ssh`**。在这里，管理员（或另一个用户^([95])) 将在 Nagios 服务器上生成的公钥保存在名为 **`authorized_keys`** 的文件中：

现在用户 **`nagios`** 在目标服务器上不需要自己的密码。您只需确保在目标服务器上，**`.ssh`** 目录以及 **`authorized_keys`** 文件属于用户 **`nagios`**：

## 9.2.3 检查 SSH 连接和 **`check_by_ssh`**

使用此配置，您首先应该检查安全壳连接是否正常工作。测试是以用户 **`nagios`** 的身份进行的，因为 Nagios 在检查过程中会使用它：

**`-i`** 选项明确指定了私钥文件的路径。如果要在目标计算机上运行的命令 **`w`** 没有提供任何输出，或者相反的 SSH 守护进程请求密码，那么通过公钥的登录将不起作用。在这种情况下，您必须首先找到并消除错误，然后才能继续测试 **`check_by_ssh`**。

在此下一步中，您在目标计算机上运行本地插件，使用 **`check_by_ssh`**，稍后它将自动从 Nagios 服务器的命令行运行。确保每种情况下插件路径都是正确的。服务器上用户 **`nagios`** 的私钥文件路径使用 **`-i`** 指定：

在示例中，**`check_by_ssh`** 应该在目标计算机上以选项 **`-w 10% -c 5% -e -m`** 启动 **`/usr/local/nagios/libexec/check_disk`** 插件。如果这不起作用，那么它首先在目标主机上以相同的参数本地运行。通过这样做，您可以排除问题出在插件命令本身，而不是在安全壳连接上。

* * *

^([95]) ... 但不是用户 **`nagios`**，因为当创建账户时，**`useradd`** 首先在这里设置了一个无效密码，我们没有将其更改为有效密码。这意味着您目前无法以 **`nagios`** 身份登录到目标计算机。

# 9.3 Nagios 配置

匹配的命令对象再次在文件 **`checkcommands.cfg`** 中定义；类似于 **`check_local_disk`**，它应该命名为 **`check_ssh_disk`**：

存储在 **`command_line`** 中的命令行首先运行 **`check_by_ssh; $USER1$`**，其中包含 Nagios 服务器上的本地插件路径。接下来是参数——目标主机的 IP 地址（参数 **`-H`**）、私钥文件（参数 **`-i`**）以及最后，使用 **`-C`** 参数，目标主机应执行的全部命令。如果目标主机和 Nagios 服务器上的插件路径相同，那么您也可以在其中使用 **`$USER1$`** 宏；否则，目标计算机上的插件路径将明确给出。

设置命令与 7.1 硬盘剩余空间中的**`check_local_disk`**（第 158 页）中的命令没有不同。这意味着除了警告和临界限制之外，我们明确指定了一个文件系统或硬盘分区，使用**`-p`**参数。

以这种方式定义的命令**`check_ssh_disk`**如下应用，这里在一个名为**`linux02`**的计算机上：

以这种方式定义的服务对象确保 Nagios 检查其**`/`**文件系统。警告限制在 10%，临界限制在 5%。

如果你使用**`check_by_ssh`**插件与**`check_ssh_disk`**一起，如本例所示，你必须确保所有目标主机上的插件路径相同。出于简单起见，这也值得做，尽管在实践中并不总是可能。以下服务定义因此将插件路径作为附加参数提供给目标计算机：

为了使这成为可能，你必须更改命令定义中的命令行，通过**`-C`**传递，如下所示：

注意：这会导致**`$ARGx`**宏的每个**`-w`**、**`-c`**和**`-p`**的数字都向右移动一位。

# 第十章. Nagios 远程插件执行器（NRPE）

如其名所示，*Nagios 远程插件执行器*（或简称 NRPE）在远程主机上执行程序。这些通常是本地测试相应计算机的插件，因此必须安装在其上。NRPE 的使用不仅限于本地插件；任何插件都可以执行，包括那些旨在测试网络服务的插件——例如，间接测试无法从 Nagios 服务器访问的计算机（如第 224 页的 10.6 间接检查所示）。

当使用安全外壳时，远程计算机上必须有一个真正的用户账户（见第九章），这也可以用来做除了启动插件之外的其他事情，但 NRPE 仅限于显式配置的测试。如果你愿意或被迫在目标主机上不使用登录外壳，那么使用 NRPE 会更好，尽管与安全外壳相比，这需要更多的配置工作。除了 Nagios 配置和在 Nagios 服务器上安装**`check_nrpe`**插件之外，以下任务仍然在目标系统上：

+   必须安装程序**`nrpe`**。

+   那里的 inet 守护进程（**`inetd`**或**`xinetd`**）必须以管理员权限配置。

+   所有通过 NRPE 调用的插件都必须安装。

# 10.1 安装

NRPE 和插件可以从源代码安装，或者您也可以使用发行商提供的软件包。您应该使用至少 2.0 版本的 NRPE，因为这与它的前辈不兼容。从 2.6 版本开始，NRPE 具有开关 **`-u`**。如果目标系统上的 NRPE 服务不可达，Nagios 服务器上的插件 **`check_nrpe`** 会为此开关返回一个 UNKNOWN。从 2.8 版本开始，NRPE 支持与 Nagios 3.0 一起引入的多行插件输出（参见第 193 页的 8.5.1 多行插件输出）。在本书付印时，当前版本为 2.12，日期为 2008 年 3 月 26 日。

所有已建立的发行版至少包含从 1.4 版本开始的插件集合。您是否需要最新版本取决于您对相应插件的期望。

## 10.1.1 特定发行版的软件包

SuSE Linux 10.3 包含以下软件包：**`nagios-nrpe-2.10-4.1.i586.rpm, nagios-plugins-1.4.10-12.1.i586.rpm`**，以及 **`nagios-plugins-extras −1.4.10-12.1.i586.rpm.nagios-nrpe`** 包含了守护进程和插件 **`check_nrpe`**，该插件安装了几个额外的插件，例如数据库检查、FPing 测试或 Radius 测试，这些可以根据您的具体监控需求省略。

为了简化，设计软件包通过 YAST2^([96]) 或 **`rpm -ihv`** **``*`package`*``** 安装。第二种方法也适用于 Fedora 用户。

对于 Fedora Core 和 Red Hat Enterprise Linux，Dag Wieers 已经提供了几个版本的相应 Nagios 软件包.^([97])

Debian/Sarge 将 NRPE 守护进程和 NRPE 插件 **`check_nrpe`** 分装在两个不同的软件包中，分别称为 **`nagios-nrpe-server`** 和 **`nagios-nrpe-plugin`**，可以通过 **`apt-get install`** **``*`package`*``** 独立安装。如果您不想安装本地文档，可以省略软件包 **`nagios-nrpe-doc`**，只需将插件软件包 **`nagios-plugins`** 添加到目标主机即可。

程序 **`nrpe`**、配置文件 **`nrpe.cfg`** 和插件目录的路径列在 表 10-1 中。

表 10-1. NRPE 和插件的安装路径

| 发行版 | NRPE 程序 | 配置文件 | 插件 |
| --- | --- | --- | --- |
| ^([a]) |
| ^([b]) |
| 自编译^([a]) | **`/usr/local/sbin/nrpe`** | **`/etc/nagios/nrpe.cfg`** | **`/usr/local/nagios/libexec`** |
| SuSE | **`/usr/bin/nrpe`** | **`/etc/nagios/nrpe.cfg`** | **`/usr/lib/nagios/plugins`** |
| Debian | **`/usr/sbin/nrpe`** | **`/etc/nagios/nrpe.cfg`** | **`/usr/lib/nagios/plugins`** |
| Fedora^([b]) | **`/usr/sbin/nrpe`** | **`/etc/nagios/nrpe.cfg`** | **`/usr/lib/nagios/plugins`** |

|

^([a]) 推荐。

^([b]) 来自 Dag Wieers 提供的包。

|

## 10.1.2 从源代码安装

插件按照 1.4 安装和测试插件中从第 43 页描述的 Nagios 服务器上的方式安装在要监控的计算机上。

NRPE 源代码可以从 Nagios 主页获取.^([98]) 目录**`/usr/local/src`**^([99]) 是卸载源代码的理想选择。

在已创建的新目录中，您运行**`configure`**命令：

推荐的路径规范列在表 10-1 中。与默认设置唯一不同的是 NRPE 配置文件存储的目录（**`configure`**选项**`--sysconfdir`**）。

因此，我们可以在**`configure`**命令中省略**`--with-nrpe-user`**和**`--with-nrpe-group`**的条目。这两个选项仅在**`nrpe`**程序作为守护进程运行时相关，并且可以在配置文件中覆盖。如果使用 inet 守护进程，您应该在 inet 守护进程的配置文件中指定**`nrpe`**应该以何种权限启动的用户。

**`--enable-ssl`** 确保 NRPE 通过 SSL 加密通道进行通信。当然，这只有在目标主机上的**`nrpe`**和 Nagios 服务器上的**`check_nrpe`**都相应编译的情况下才能工作。

命令**`make all`**编译程序**`nrpe`**和**`check_nrpe`**，但它**不会**将它们从**`/usr/local/src/nrpe-2.11/src`**复制到相应的系统目录中。由于没有**`make install`**，您必须自己完成此操作，具体细节请参考表 10-1：您需要在要监控的计算机上安装**`nrpe`**，并在 Nagios 服务器上安装**`check_nrpe`**插件。

如果 Nagios 服务器和目标主机使用相同的平台，您可以在一台计算机（例如服务器）上编译这两个程序，然后将**`nrpe`**及其配置文件复制到要监控的计算机上，而不是在 Nagios 服务器上单独编译**`check_nrpe`**，在目标系统上单独编译**`nrpe`**。

* * *

^([96]) 在命令行上，使用**`yast -i`** **``*`package`*``**。

^([97]) [`dag.wieers.com/`](http://dag.wieers.com/)

^([98]) [`www.nagios.org/download/`](http://www.nagios.org/download/)

^([99]) 可能需要首先创建子目录**`src`**。

# 10.2 通过 inet 守护进程启动

最好通过 inet 守护进程在要监控的机器上启动程序 **`nrpe`**，而不是作为单独的守护进程，因为 Nagios 服务器只是偶尔执行测试，而 **`nrpe`** 不需要加载任何大型资源。

如果你有选择，你应该使用更现代的 **`xinetd`**。但为了将工作减少到最低限度，通常将使用 inet 守护进程，因为它已经在目标系统上运行。为了使 NRPE 可以通过 **`inetd`** 或 **`xinetd`** 作为服务启动，**`nrpe`** 服务在文件 **`/etc/services`** 中定义：

即使这是作为软件包安装的，你也应该检查此条目是否存在。默认情况下，NRPE 使用 TCP 端口 5666。

## 10.2.1 **`xinetd`** 配置

如果使用 **`xinetd`**，则每个要启动的服务都会在目录 **`/etc/xinetd.d`** 中存储一个单独的文件。对于 **`nrpe`**，最好创建一个名为 **`nrpe`** 或 **`nagios-nrpe`** 的文件：

以斜体打印的值会传递到你的环境中；对于 **`only_from`**，例如，你应该输入你的 Nagios 服务器的 IP 地址，而不是占位符 **``*`ip_of_the_nagios_server`*``**。NRPE 从外部访问将仅限于这台计算机和 **`local-host`** （**`127.0.0.1`**）。后者地址允许本地测试；多个 IP 地址由空格分隔。然而，此限制性配置仅在 **`xinetd`** 编译了 TCP 包装器支持的情况下才有效。

在任何情况下都不应该使用具有特权的用户权限运行 NRPE——因此 **`nobody`** 是一个合理的值。**`server`** 参数指定了程序 **`nrpe;`** 的完整路径，对于 **`server_args`**，你应该输入配置文件的匹配路径。在此修改后，重新加载 **`xinetd`** 的配置，使用

## 10.2.2 **`inetd`** 配置

在标准的 **`inetd`** 中，以下行被添加到配置文件 **`/etc/inetd.conf`** 中：

这一行被拆分是为了空间原因，但在配置文件中，所有这些必须在单行中。这里使用 TCP 包装器 **`tcpd`**。如果不打算使用它，只需省略此条目^([100])。在这里，你还应该明确输入用户 **`nobody`**、二进制文件的完整路径 **`nrpe`** 和配置文件，以及其完整路径。上述斜体打印的字符串应根据你的系统进行必要的调整。配置更改后，重新加载 **`inetd`**：

## 10.2.3 Inet 守护进程是否正在监视 NRPE 端口？

一个简单的测试可以显示 inet 守护进程是否想要在端口 5666 上响应查询：

程序 **`netstat`** 使用选项 **`−1`** 显示服务等待接收查询的所有端口，即处于 **`LISTEN`** 状态的服务。选项 **`-n`** 抑制主机和端口的名称解析，并加快信息显示速度，而 **`-t`** 限制输出为 TCP 端口。

测试仅显示 inet 守护进程是否正确配置并已重新启动，例如，是否在 **`/etc/services`** 中正确地输入了 **`nrpe`** 服务。它不明确指出 NRPE 守护进程及其配置文件的路径是否正确。这种错误仅在具体尝试访问 NRPE 端口 5666 时由 inet 守护进程宣布。只有在 NRPE 守护进程配置完成后，才会进行后续的完整功能测试。这在本节的 10.4 NRPE 功能测试 页 221 中描述。

* * *

^([100]) **`inetd`** 没有内置方法仅允许来自特定 IP 地址的服务访问。此功能是在 TCP 包装器 **`tcpd`** 中添加的。然后，访问配置由文件 **`/etc/hosts.allow`** 和 **`/etc/hosts.deny`** 担任。关于此的更多信息，请参阅 **`man host_access`**。

# 10.3 监控计算机上的 NRPE 配置

在编译 NRPE 时，源目录中会创建 **`nrpe.cfg`** 文件，其中包含几个参数以及运行 NRPE 的命令。这些命令需要手动复制到配置目录，通常首先需要在目标计算机上创建该目录：

特定于发行版的软件包从第 215 页 表 10-1 中指定的位置解包。

**`nrpe`** 在运行时被赋予 inet 守护进程配置中指定的用户权限，在我们的例子中是 **`nobody`**。因此，**`nrpe.cfg`** 需要对该用户可读。只要文件不包含任何密码（这些实际上不应该使用）或其他关键信息，则可以允许所有用户读取权限。

配置文件包含许多注释；以下命令显示活动参数：^([101])

参数 **`server_port`**、**`allowed_hosts`**、**`nrpe_user`** 和 **`nrpe_group`** 仅在 **`nrpe`** 作为守护进程运行时相关。当使用 inet 守护进程时，程序会忽略这些值，因为它们已经被 **`(x) indetd`** 配置确定。

条目**`dont_blame_nrpe=0`**阻止**`nrpe`**接受参数，从而关闭了一个潜在的安全漏洞。**`debug=l`**允许详细的日志记录，这在查找错误时很有用（**`debug=0`**关闭调试信息的输出），而**`command_timeout`**指定了秒数，在此之后**`nrpe`**会突然中断挂起的插件。配置文件中的注释解释了所有这些参数。

在此之后，定义了将被 NRPE 执行的命令。配置文件**`nrpe.cfg`**已经包含了一些，但首先它们都必须被注释掉，并且只有那些真正打算使用的命令被激活。

关键字**`command`**后面跟着方括号中的名称，这是**`check_nrpe`**应该调用的命令的名称。在等号（=）之后，指定相应的插件命令，包括其完整路径:^([102])

在路径方面，必须注意这确实指向了本地插件目录。在这里指定的目录中，**`/usr/local/nagios/libexec`**，自编译的插件位于^([103]）；而对于来自发行版包的安装，路径通常是**`/usr/lib/nagios/plugins`**。

从 Nagios 服务器，现在通过**`check_nrpe`**在**目标计算机**上运行刚刚定义的命令**`check_users`**：

## 10.3.1 将参数传递给本地插件

到目前为止描述的方法有一个缺点：对于目标系统上的每个测试，都需要一个单独定义的命令。以下是一个需要监控九个文件系统的服务器的示例，其中插件**`check_disk`**（参见第 158 页的 7.1 硬盘剩余空间）是必需的：

为了避免所有这些工作，NRPE 也可以配置为将参数传递给**`check_nrpe`**：

为了使这生效，必须使用带有选项的 NRPE **`configure`** 脚本运行：

**`--enable-command-args`**。这种不便的程序的原因是传递参数是一个基本的风险，因为不能排除某些参数选择可能导致（尚未知）的缓冲区溢出，从而允许目标系统被渗透。

尽管存在所有安全风险，如果你仍然决定这样做，应该使用 TCP 包装器（参见 10.2.2 inetd 配置，第 217 页），以确保只有 Nagios 服务器本身被允许向 NRPE 发送命令。

如果插件提供了相应的选项，有时还有第三种方法：上述问题也可以通过获取**`check_disk`**来解决，如果需要，可以使用一个单独的命令测试所有文件系统：

**`-e`**参数说服插件只显示那些产生警告或错误的文件系统。一个限制仍然存在：警告和临界限制对于所有文件系统来说，必然是相同的。

* * *

^([101]) 正则表达式**`^#|^$`**匹配所有以注释符号**`#`**开头或由空行组成的行。选项**`-v`**确保**`egrep`**显示所有不匹配这些行的行。

^([102]) **`check_users`**命令在 7.6 监控登录用户数量的第 177 页进行了解释，**`check_load`**在 7.3 测试系统负载的第 162 页进行了解释，而 7.4 监控进程的第 163 页涉及**`check_procs`**。

^([103]) ...前提是你已经遵循了书中的说明。

# 10.4 NRPE 功能测试

为了进行一个总结性的功能测试，Nagios 服务器上的插件**`check_nrpe`**被调用。命令**`-H`** **``*`目标`*``** **`主机`**返回刚刚安装 NRPE 服务的服务器上指定的 IP 地址：

这里给出的错误信息非常频繁地发生，并且几乎同样频繁地引起混淆，因为尽管 SSL 握手可能会出现问题，但在大多数情况下，原因在其他地方。只有当插件**`check_nrpe`**和所指向的**`NRPE 守护进程`**使用的 SSL 版本不兼容，或者两个软件包中有一个没有使用 SSL 编译，而另一个使用了 SSL 时，你才有一个 SSL 问题。

否则，原因将在于其他地方：问题可能是由于配置文件中的错误引起的，或者 inet 守护进程无法找到 NRPE 程序或配置文件，或者文件**`nrpe.cfg`**的访问权限不足。如果 Nagios 服务器无法通过 inetd 配置访问 NRPE 服务，你也会收到提到的错误信息。在这种情况下，你需要检查**`xinetd`**的**`only_from`**参数或通过**`tcpd`**为**`inetd`**设置的相同限制。

你可以在 syslog 文件中查找错误的精确原因，特别是文件**`messages`**，根据发行版的不同，也可能在**`warn.log`**、**`daemon.log`**或另一个日志文件中：

在这个例子中，文件**`nrpe.cfg`**要么不在搜索的路径中，要么**`nrpe`**无法打开它。由于**`nrpe`**以**`nobody`**用户的权限运行，它也必须能够读取配置文件。

然后一个成功的**`check_nrpe`**调用将提供已安装 NRPE 服务的版本：

# 10.5 Nagios 配置

通过 **`check_nrpe`** 在远程计算机上“触发”本地插件的命令，在 Nagios 服务器上的 **`checkcommands.cfg`** 文件中定义为之前所述。

## 10.5.1 不传递参数的 NRPE

如果没有将参数传递给目标插件，情况将如下所示：

作为唯一的参数，Nagios 在这里传递给 NRPE 执行的命令。如果 Nagios 服务器上的 **`check_nrpe`** 插件位于与其他插件不同的目录中，你必须输入正确的路径而不是 **`$USER1$`**。

要通过 NRPE 测试的服务使用刚刚定义的命令 **`check_nrpe`** 作为 **`check_command`**。作为参数，指定了在目标系统（此处：**`linux04`**）上的 **`nrpe.cfg`** 中定义的命令：

## 10.5.2 NRPE 中的参数传递

为了解决第 220 页 10.3.1 将参数传递给本地插件 中定义的命令

从 Nagios 服务器，通过选项 **`-a`** 将相应的参数传递给 **`check_nrpe`**：

以便 **`$ARG2$`** 可以正确地传输远程插件的参数，这些参数在服务定义中以空格分隔。此外，你应该确保顺序正确：

本地安装在 **`linux04`** 上的 **`check_disk`** 将三个字符串 **`10%，5%`** 和 /var 分配给其自己的三个宏 **`$ARG1$`**、**`$ARG2$`** 和 **`$ARG3$**，用于 **`nrpe.cfg`** 中定义的命令。

## 10.5.3 优化配置

如果在所有目标系统上给 NRPE 命令相同的名称，则可以将具有相同名称的所有 NRPE 命令包含在单个服务定义中。在这种情况下，你可以利用指定多个主机或甚至整个主机组的可能性：

使用在 10.3.1 将参数传递给本地插件 的第 220 页开头定义的命令 **`check_disk_var`**，Nagios 现在检查计算机 **`linux04`**、**`linux02`** 和 **`linux11`** 上的 **`/var`** 文件系统。如果要将其他文件系统包含在测试中，则为每个文件系统创建单独的服务，从而避免传递参数时涉及的安全问题。如果你使用测试所有文件系统的同时的选项，使用 **`check_disk`** 插件（见 7.1 硬盘剩余空间），那么最终，一个单一的服务定义就足够监控所有 Linux 服务器上的所有文件系统——前提是你有目标系统上的相应 NRPE 配置：

# 10.6 间接检查

NRPE 不仅执行本地插件，还执行任何可用的插件。如果你通过 NRPE 使用网络插件，这些插件被称为*间接检查*，如图图 10-1 所示。

![使用 NRPE 进行间接检查](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223814.png)

图 10-1. 使用 NRPE 进行间接检查

如果每个网络服务都直接通过防火墙进行测试，那么就必须打开所有所需的端口。在示例中，这些端口将是 SMTP、HTTP、LDAP、PostgreSQL 和 SSH 的端口。另一方面，如果检查是从防火墙后面的计算机间接进行的，那么只需要在防火墙上打开 NRPE（TCP 端口 5666）的端口就足够了。只要通过 NRPE 进行配置，防火墙后面的 NRPE 服务器就可以执行它想要的任何测试。

间接检查所涉及的努力是否大于直接检查的努力取决于具体的实现：如果这意味着你必须在防火墙上“打洞”，那么在 NRPE 服务器上的额外工作可能是值得的。但如果涉及的端口已经打开，那么通常可以直接进行测试；这会使在 NRPE 主机上进行额外配置工作变得不必要。

# 第十一章. 使用 SNMP 收集与监控相关的信息

SNMP 代表*简单网络管理协议*，这是一个定义在所有之上的协议，用于监控和管理网络设备。这意味着不仅能够读取网络设备，还能够写入网络设备，因此你可以打开或关闭交换机上的特定端口，或以其他方式干预。

几乎所有可以通过 TCP/IP 进行寻址的网络设备都可以处理 SNMP，而不仅仅是交换机和路由器。对于 Unix 系统，有 SNMP 守护进程；即使是 Windows 服务器在其标准发行版中也包含 SNMP 实现，尽管这必须明确安装。但即使是不间断电源（UPS）或网络传感器也具有 SNMP 功能。

如果你使用 Nagios，那么在某个时候你不可避免地会接触到 SNMP，因为尽管你通常有很多查询 Unix 和 Windows 系统的技术选择，但当涉及到没有自己复杂操作系统的硬件特定组件，如交换机时，SNMP 通常是获取网络设备信息的唯一方式。SNMP 并不以易于理解而闻名，这与其他因素有关，例如它旨在程序之间的通信，机器处理是主要的。此外，你通常不会直接与协议和原始信息接触，因为即使是调制解调器或路由器也提供了一个简单易用的界面，掩盖了底层 SNMP 的复杂性。

如果你想在 Nagios 中使用 SNMP，你不可避免地要涉及到协议的信息结构。11.1 SNMP 简介因此提供了对 SNMP 的简要介绍。11.2 NET-SNMP 从第 234 页介绍了 NET-SNMP，这可能是 Unix 系统上最广泛使用的 SNMP 实现。一方面，它展示了如何使用命令行工具获取网络设备信息结构的概览，另一方面，它描述了 Linux 中 SNMP 守护进程的配置。最后，11.3 Nagios 自带的 SNMP 插件从第 246 页专门讨论了 SNMP 与 Nagios 的具体使用。

# 11.1 SNMP 简介

虽然 SNMP 的名字中包含了“协议”的 P，但这不仅仅代表一个协议，而是作为*互联网标准管理框架*的同义词使用。这包括以下组件：

+   可管理的网络节点，可以通过 SNMP 远程控制。一个特定的 SNMP 引擎实现，无论是软件还是硬件，被称为*代理*。

+   至少一个由可以管理代理的应用程序组成的 SNMP 单元。这个单元被称为*管理者*。

+   一个代理和管理者可以交换信息的协议：*简单网络管理协议*（SNMP）。

+   一个明确的信息结构，以便任何管理者和代理都能相互理解：所谓的*管理信息库*，简称 MIB。

框架将管理者的角色定义为主动。代理本身只是被动地等待接收命令。此外，所谓的*陷阱*扩展了 SNMP 的应用可能性：这些是代理主动发送给单个管理者或一组管理者的消息，例如当预定义的极限值被超过或当网络设备的函数失败时。

作为代理，制造商实现的 SNMP 引擎用于特定硬件设备（交换机、路由器）。对于 Linux 和通用 Unix 系统，有 NET-SNMP 实现可用（见 11.2 NET-SNMP），对于 Windows 服务器，操作系统已经包含了等效的软件。

与 Nagios 结合使用时，有两种可能性。在 Nagios 扮演主动角色的方面，相应的 Nagios 插件，作为管理者，会向代理请求所需信息。反过来，Nagios 也可以使用工具被动接收传入的 SNMP 陷阱并处理它们。14.6 应用示例 II：处理 SNMP 陷阱从第 312 页专门讨论了这一主题。

如果你想成功使用 Nagios 与 SNMP，理解 SNMP 信息结构，所谓的 *管理信息库* (MIB) 是至关重要的。因此，本节将专注于这一点。协议本身只是简要提及，以说明不同协议版本之间的差异。

如果你想要更深入地了解 SNMP，我们建议你查阅描述 SNMP 的众多 *请求评论* (RFCs)。最佳起点是 RFC 3410，“互联网标准管理框架的介绍和适用性声明”和 RFC 3411：“描述简单网络管理协议（SNMP）管理框架的架构”。除了介绍和许多交叉链接外，你还可以在那里找到对较旧版本原始文档的引用，今天被称为 SNMPv1 和 SNMPv2。

## 11.1.1 管理信息库

SNMP 信息结构由数字的分层命名空间构造组成。图 11-1 展示了这一结构的摘录。树结构类似于其他分层目录服务，如 DNS 或 LDAP。

它的根被称为 **`1 (iso)`**，代表 *国际标准化组织*。下一级，如图 图 11-1 所示的 **`3 (org)`**，为一般、国家和国际组织提供空间。在其下方是 **`6 (dod)`**，代表美国的 *国防部*。基于 IP 的一般（互联网）**`internet`** 被分配为 **`dod`** 的子项 **`1 (internet)`**，这归因于其作为军事项目的起源。

如果你从左到右将相应的数字组合起来并用点分隔，那么对于树中的 **`internet`** 节点，你将得到标识 **`1.3.6.1`**。这类节点通常被称为 *对象标识符* (OID)。它们的语法不仅用于 SNMP，也用于定义 LDAP 对象和属性，例如。

OID **`1.3.6.1`** 对于人类来说并不容易阅读，这就是为什么其他表示方法已经得到认可：**`iso.org.dod.internet`** 和组合 **`iso(1).org(3).dod(6).internet(1)`** 都是允许的。因为如果树足够深，这会迅速使可读描述变得无限长，因此另一种缩写表示方法已经建立：只要术语保持唯一，你只需简单地写 **`internet`** 而不是 **`1.3.6.1`**。

这里重要的是，管理器和代理之间的通信完全是数值性的。管理器是否也允许文本输入或能否以文本形式而不是以数值 OID 发布信息取决于每种情况下的实现。有关各个节点的信息由 SNMP 代理的制造商以文件形式提供，作为管理信息库（MIB）。

![使用 MIB-II 接口示例的 SNMP 命名空间](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223816.png)

图 11-1. 使用 MIB-II 接口示例的 SNMP 命名空间

存储在 MIB 中的数据包括联系信息（谁设计了 MIB；通常设备制造商将被提供在这里），各个子节点和属性的定义，以及使用的数据类型。如果 MIB 文件还描述了各个子节点和属性，这将使管理器能够向用户提供有关所讨论条目意义和目的的附加信息。

在**`internet`**下面，下一级被划分为各种命名空间。对于 SNMP 来说，管理节点**`1.3.6.1.2`**特别重要，即**`iso(1) .org(3) .dod(6) .internet(1) .mgmt(2)`**。这里的命名空间由 RFC 1155，“基于 TCP/IP 互联网的管理信息的结构和标识”所描述。

为了使管理器和代理能够相互理解，管理器需要知道代理如何结构化其数据。这就是**管理信息库，版本 II**发挥作用的地方。SNMP 从代理那里请求有关其实施的信息；通过这种方式，每个管理器都可以访问代理的最重要参数，而无需之前的 MIB 定义交换。**管理信息库 II**，或简称为 MIB-II（或 mib-2），可以在**`1.3.6.1.2.1`**或**`iso(1).org(3).dod(6).internet(1).mgmt(2).mib-2(1)`**命名空间中找到。由于它是明确定义且唯一的，因此位于其下的 OID 通常简短描述，以 MIB-II 或 mib-2 开头。

您也可以在自己的管理信息库中定义制造商特定的信息。相应的 MIB 位于**`internet.private.enterprise`**之下。一旦在 MIB 中描述了一个 OID，该条目的含义就永远不能更改。MIB 的描述格式由 RFC 1212 标准化，这也是为什么供应商为代理提供的特殊 MIB 几乎可以集成到任何管理器中。

### MIB-II

MIB-II，即所有 SNMP 代理都必须遵守的管理信息库，包含几个信息组。其中最重要的总结在表 11-1")中。表示法**`mib-2.`****``*`x`*``**代表**`1.3.6.1.2.1.`****``*`x`*``**。

表 11-1. MIB-II 组（部分选择）

| 组 | OID | 描述 |
| --- | --- | --- |
| system | mib-2.1 | 设备信息（例如，位置、联系人或运行时间） |
| 接口 | mib-2.2 | 网络接口信息（名称、接口类型、状态、统计信息等） |
| at | mib-2.3 | 将物理地址（例如，MAC 地址）分配给 IP 地址（地址转换表） |
| ip | mib-2.4 | 路由表和 IP 数据包统计信息 |
| icmp | mib-2.5 | 单个 ICMP 数据包类型的统计信息 |
| tcp | mib-2.6 | 打开的端口和现有的 TCP 连接 |
| udp | mib-2.7 | 对于 UDP 也是如此 |
| host | mib-2.25 | 存储介质、设备、运行进程及其资源使用的信息 |

如何具体处理存储在 MIB-II 中的信息可以通过*接口*组的例子来解释：图 11-1 展示了它们如何分为两个 OID **`interfaces.if Number`** 和 **`interfaces.if Table`**。这是因为一个网络节点最初会显示未知数量的接口。这个数量由**`ifNumber`**来表示。在更详细地查看这些接口之前，管理者可以从**`ifNumber`**获取有关实际接口数量的信息。

**`ifTable`** 包含了不同接口的实际信息。为了获取特定接口的信息，管理者查询所有最后一位数字相同的条目，如下所示：

**`ifIndex`** 描述了设备内部的索引——SNMP 总是从**`1`**开始计数，交换机从这里开始计数为**`100`**。**`ifDescr`** 包含接口的名称，这里为**`eth0`**——这显然是一台 Linux 机器。从接下来的四个条目可以推断出，这里涉及到的是一个普通的 100-Mbit 以太网接口。

接口类型**`ifType`**给出为**`ethernetCsmacd`**，即以太网。**`ifMtu`**指定了*最大传输单元*，在本地网络中，以太网总是 1,500 字节。接口速度**`ifSpeed`**为 100,000,000 位，即 100 Mbit。而**`ifPhysAddress`**包含物理网络地址，也称为 MAC 地址。

**`ifAdminStatus`** 揭示了管理员是否通过配置将接口打开（**`up`**）或关闭（**`down`**）。另一方面，**`ifOperStatus`** 指定了实际状态，因为即使由管理员激活的接口也不一定连接到设备，或者甚至打开。

第二个接口也有类似的图示：

然而，这里不是以太网卡，而是一个本地回环设备。

## 11.1.2 SNMP 协议版本

第一个 SNMP 版本和**互联网标准管理框架**最早在 1988 年的 RFC 1065–1067 中描述；关于这个版本（命名为 SNMPv1）的当前文档可以在 RFC 1155–1157 中找到。它今天仍在使用，因为更高版本在本质上与旧版本向后兼容。

SNMPv1 的主要缺点是这个版本只允许在精确的三阶段中进行令人不满意的认证：无访问权限、读取访问权限和读写操作的完全访问权限。两个简单的密码，所谓的**社区**，在这里提供了一点保护：它们将用户分为具有读取权限的一个社区，以及具有读取和写入权限的第二个社区。不可能进行进一步的区分。如果这还不够，社区是以明文形式传输的，这使得它很容易成为嗅探工具的目标。

第二个版本 SNMPv2 的进一步开发旨在解决有关值范围显示、错误事件以及大量请求时的性能问题（RFC 1905）。然而，这个 RFC 从未完全实现。在实践中使用的唯一相对完整的实现被称为**基于社区的 SNMPv2**，或简称为 SNMPv2c（RFC 1901-1908）。当前版本 SNMPv3（RFC 3411–3418）具有互联网标准的地位。具有 SNMPv3 实现的代理始终理解来自 SNMPv1 的请求。

除了扩展协议操作外，SNMPv1 和 SNMPv2c 之间没有根本性的区别。这也可能是 SNMPv2 无法真正站稳脚跟的原因。在这个版本中，期望的安全性的提高显然是缺失的。只有 SNMPv3 中框架的扩展允许更精确的访问控制，但这比 SNMPv1 中的两个社区字符串要复杂得多。RFC 3414 描述了基于用户的**安全模型**（USM），RFC 3415 描述了基于视图的**访问控制模型**（VACM）。

当访问 SNMP 代理时，你必须告诉所有工具，包括插件，要使用哪个协议版本。在 Nagios 中，你只需要读取访问。如果这仅限于所需的信息，并且你只允许来自 Nagios 服务器的访问，那么你无需担心没有 SNMPv3 的扩展认证。重要的是，如果你可能的话，配置代理以完全防止写访问，或者至少要求密码。你永远不应该使用这个：因为它以明文形式传输，总有人可能会监听，并可能在以后滥用密码。

在 NET-SNMP 中，可以完全防止写访问，访问可以限制到特定的主机，并且可以限制公开的信息。对于其他在硬件中实现的代理，例如交换机和路由器，你必须权衡是否真的需要 SNMPv3，假设制造商已经提供了这项功能。然而，SNMPv1 对于所有 SNMP 设备都是可用的。

因此，我们下面将仅解释通过 SNMPv1 的访问方式，并假设这通常是只读访问。如果您仍然想涉足 SNMPv3，我们建议您查阅 NET-SNMP 文档.^([105])

* * *

^([104]) *载波侦听* (CS) 指的是每个网络接口根据网络信号（例如与令牌环网相比，网络卡可能只有明确接收到令牌时才能使用线路）检查线路是否空闲；*多路访问* (MA) 指的是多个网络卡可以同时访问一个公共网络介质。

^([105]) [`net-snmp.sourceforge.net/docs/FAQ.html#How_do_I_use_SNMPv`](http://net-snmp.sourceforge.net/docs/FAQ.html#How_do_I_use_SNMPv)

# 11.2 NET-SNMP

可能是 Linux 和其他 UNIX 系统上最广泛使用的 SNMP 实现是 NET-SNMP ^([106])，最初由卡内基梅隆大学的 Wes Hardaker，加州大学戴维斯分校的系统管理员构想，他继续开发代码，并首次以 UCD-SNMP（版本 3.0）的名义发布。

在 5.0 版本中，该项目最终得到了 NET-SNMP 这个名字。但各种发行版仍然称这个包为 UCD-SNMP，部分原因是因为它包含了 4.2 版本，部分原因是因为维护者简单地还没有时间将其重命名。

NET-SNMP 由一组命令行工具、一个图形浏览器（**`tkmib`**）、一个代理（**`snmpd`**，见第 238 页的 11.2.2 NET-SNMP 守护进程）和一个库组成，现在它几乎成为开源领域几乎所有 SNMP 实现的基石。

所有常见的发行版都包括相应的包。在 SuSE 中，这被称为**`net-snmp`**，包含所有组件；Debian 将工具打包在**`snmp`**包中，并将守护进程打包在**`snmpd`**包中。在印刷时，5.4.1 是当前版本，但较老的 5.x 版本也能满足我们的需求。它们的输出在某种程度上有所不同，但具体选项可以在必要的 man 页面上查找。

## 11.2.1 SNMP 请求工具

对于读取访问，使用**`snmpget`**、**`snmpgetnext`**和**`snmpwalk`**程序。**`snmpget`**特别请求一个 OID 并从中返回一个值。**`snmpgetnext`**显示管理信息库中存在的下一个变量，包括其值：

选项**`-v1`**指示**`snmpget`**使用 SNMPv1 作为协议。使用**`-c`**指定读取社区；在这种情况下，密码是**`public`**。接下来是查询的计算机，这里为**`localhost`**，最后是我们要查找值的 OID。

NET-SNMP 工具是 OID 缩写的专家：没有特殊指令，它们总是假设涉及的 OID 位于 MIB-II 内部。对于如**`ifDescr.1`**这样的唯一条目，这已经足够了。但各种 Nagios SNMP 插件是否也能处理这种情况取决于具体的实现；最好逐个尝试。为了安全起见，最好使用完整的 OID，可以是数值形式，也可以是可读形式。后者是在你指示**`snmpget`**显示完整 OID 时获得的：

**`-On`**选项提供数值 OID，**`-Of`**提供文本版本。这样，你可以轻松地找到完整的 OID，对于无法处理缩写的插件来说。这里重要的是要记住：每个 OID 总是以一个点开始。如果你省略了它，总会有一个插件无法正常工作。

为了获取 MIB-II 中存储的所有信息，最好使用**`snmpwalk`**。正如其名称所暗示的，该程序会遍历整个管理信息库，要么是全部，要么是树的一部分。如果你想要了解节点**`mib-2.interfaces`**（图 11-1 在第 230 页）下的所有条目，你只需给**`snmpwalk`**提供所需的 OID：

**`snmpwalk`**略微隐藏了确切的结构（例如，缺少到**`ifTable`**和**`ifEntry`**的链接，例如，参见图 11-1)，因此最好使用**`-Of:`**

这里简写用于打印的三个点...代表**`.iso.org.dod.internet.mgmt`**。

作为下一步，你可以查看自己的网络并查询那里可用的管理信息库。通常，使用读取社区**`public`**可以走得很远，因为这是常见的默认设置。因此，你也应该尝试社区字符串**`private`**，这是许多厂商默认设置的。顺便说一句，这是一种极其可疑的做法：任何对 SNMP 有点了解并且有权访问网络的人都可以使用它来操纵设备设置，例如关闭某些端口或整个交换机。但即使对于所有其他默认密码，你也应该麻烦去更改它们。整个密码列表可以在互联网上找到，按厂商和设备分类——通过 Google 很容易找到。

无论你是否也更改了预设的读取社区（例如**`public`**），这取决于该社区上的信息以及你自己的安全需求。但读写社区在任何情况下都不应保留默认设置。此外，对于既不通过 SNMP 查询也不通过 SNMP 管理的设备，建议您完全关闭 SNMP，以确保安全。

### 使用**`mbrowse`**进行图形遍历

图形界面通常推荐用于交互式研究和管理信息库的初始探索，例如 SNMP 浏览器**`mbrowse`**^([107])（见图 11-2）。这不是 NET-SNMP 的组件，但大多数 Linux 发行版都提供了**`mbrowse`**包以供安装。

![SNMP 浏览器 mbrowse](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223818.png)

图 11-2. SNMP 浏览器 `mbrowse`

如果你突出显示一个条目并点击**`Walk`**按钮，下方的窗口将显示与**`snmpwalk`**相同的输出。然而，图形显示允许更好的定位——更容易看到你目前位于哪个部分树中。而且，**`mbrowse`**还会在**`Object Identifier`**中显示每个选定对象的数值 OID。

## 11.2.2 NET-SNMP 守护进程

NET-SNMP 守护进程**`snmpd`**作为 Linux 和其他 Unix 系统的 SNMP 代理工作；也就是说，它响应管理器的请求，同时也提供了一种通过写入访问来设置 Linux 系统的方式，例如操作路由表。

### 支持的管理信息库

代理最初提供关于 RFC 1213 中描述的 MIB-II 的信息(11.1.1 管理信息库，以及属于此的 RFC 2790（主机 MIB）的扩展。表 11-2")总结了主机 MIB 的组，并在表 11-1（第 231 页）中介绍了最重要的 MIB-II 组。

如果你感兴趣 MIB-II 的详细描述，包括主机 MIB，我们推荐你访问[`www.snmplink.org/`](http://www.snmplink.org/)。在那里你可以浏览大量的 MIB，如果你愿意，还可以下载它们。

除了基本的 MIB-II 之外，NET-SNMP 实现在其**`private.enterprises.ucdavis`**（UCD-SNMP-MIB）处有自己的扩展。在表 11-3 中给出的指令指的是配置文件**`snmpd.conf`**（见支持的管理信息库）中的指令。这里的一些信息也包含在主机资源 MIB 中。

表 11-2. 主机资源 MIB `MIB mib-2.host`（RFC 2790）

| 组 | OID | 描述 |
| --- | --- | --- |
| hrSystem | host.1 | 主机系统时间和运行时间，登录用户和活动进程数量 |
| hrStorage | host.2 | 所有存储媒体的详细信息，如交换、硬盘驱动器、可移动媒体和主内存 |
| hrDevice | host.3 | 可用设备及其属性的列表：除了处理器、网络接口、打印机和 DVD-/CD-ROM 驱动器的详细信息外，还包括硬盘驱动器、它们的分区、文件系统、挂载点和文件系统类型 |
| hrSWRun | host.4 | 包括 PID 和命令行参数的所有运行进程 |
| hrSWRunPerf | host.5 | 来自 hrSWRun 的进程的 CPU 使用率和内存使用率 |
| hrSWInstalled | host.6 | 已安装的软件；信息来源于 RPM 数据库（不幸的是，这在 Debian 中不起作用）。 |

表 11-3. UCD-SNMP-MIB 的摘录

| **`Group`** | **`OID`** | **`Directive`** | **`description`** |
| --- | --- | --- | --- |
| prTable | ucdavis.2 | **`proc`** | 运行进程的详细信息 |
| memory | ucdavis.4 | - | 内存和交换空间负载，如程序**`free`**所示 |
| extTable | ucdavis.8 | **`exec`** | 关于配置文件中自定义命令的信息 ^([a]) |
| dskTable | ucdavis.9 | **`disk`** | 关于文件系统的信息，请参见文本中的示例 |
| laTable | ucdavis.10 | **`load`** | 系统负载 |
| ucdExper- | ucdavis.13 | - | 包含 lm-sensor 信息条目的实验性扩展，等等 |
| fileTable | ucdavis.15 | **`file`** | 关于要显式监控的文件的信息 |
| version | ucdavis.100 - | - | 关于 NET-SNMP 版本和编译守护进程的参数的详细信息 |

|

^([a]) 这里可以使用任何可执行程序。

|

虽然**`mib-2.host`**仅指定绝对值，例如文件系统，但 UCD-SNMP-MIB 还允许为代理页面设置阈值值，然后明确生成一个错误值（**`dskErrorFlag`**）和错误文本（**`dskErrorMsg`**）：

**`grep '. 2 ='`**过滤器从**`snmpwalk`**输出中过滤出第二台设备的所有条目，Linux 软件 RAID **`/dev/md6`**。条目**`dskPercent`**显示此数据媒体的当前负载。如果**`dskErrorFlag`**包含值 1 而不是 0，则存在错误；**`dskErrorMsg`**向错误消息添加可读的消息。可以假设代理正在配置为在可用容量低于 10%时宣布错误。

### **`snmpd.conf`**配置文件

代理的配置在文件**`snmpd.conf`**中完成，该文件位于目录**`/etc`**中（适用于 SUSE 的情况）或**`/etc/snmp`**（Debian），具体取决于发行版。

`身份验证和安全` 作为精细访问控制的第一步，您首先需要定义谁应该有权访问哪个社区：

**`com2sec`** 将源 IP 地址链接到一个社区字符串（SNMP 密码）。此关键字后跟 IP 地址范围的别名，地址范围本身，然后是一个自由选择的社区字符串，我们将使用 **`public`** 以保持简单.^([108]）。**`192.168.1.0/24`** 指的是本地网络；Nagios 服务器本身的 IP 地址为 **`192.168.1.9`**。如果您稍后设置别名 **`localnet`** 的访问权限，它们将应用于整个本地网络 **`192.168.1.0/24`**，但如果您引用 **`nagiossrv`**，则它们仅应用于 Nagios 服务器本身。

然后将定义的计算机和网络通过它们的别名分配给具有不同安全模型的组：

关键词 **`group`** 首先跟一个自由选择的组名：在这里我们定义了名为 **`Local`** 的组，其安全模型为 **`v1`**，属于地址范围 **`localhost`**，以及具有相同安全模型的 **`Nagios`** 组，该组包含在 Nagios 服务器中。

您可以选择 **`v1`**（SNMPv1）、**`v2c`**（基于社区的 SNMPv2）和 **`usm`**（SNMPv3 的 *用户模型*）作为安全模型。如果您同时分配给计算机或网络多个安全模型，则需要具有相同组名的单独条目：

通过定义视图（关键字 **`view`**），可以从外部精确限制对管理信息库的部分树的视图。每个视图也都有一个名称用于引用：

 view all included .1
 view system included .iso.org.dod.internet.mgmt.mib-2.system

引用 **`included`** 包含视图中的以下部分树。因此视图 **`all`** 覆盖整个树（**`.1`**）。如果您想排除某些部分树，则使用关键字 **`excluded`**：

在 **`all`** 下的 **`private`** 下的部分树现在已被阻止，例如 MIB **`ucdavis (private.enterprises.ucdavis`**）。

一个有趣的功能是掩码；它以十六进制表示法指定哪些节点正好对应于子树：

对于查询的 OID 的所有位置，如果掩码以二进制表示法包含 1，则必须在查询的部分树中与这里指定的 OID **`.iso.org.dod.internet.mgmt`** 相同，否则守护进程将拒绝访问且不提供任何信息。**`.iso.org.dod.internet.mgmt`** 以数值形式表示为 **`.1.3.6.1.2`**。

多亏了掩码 **`F8`**，^([109]) 二进制 11111000，OID 的最左边五个位置必须始终是 **`.iso.org.dod.internet.mgmt`**。如果有人查询了一个 OID（例如 **`private`** 树 **`.1.3.6.1.4`**），它偏离了这一点，代理将保持沉默且不提供任何信息。如果您省略掩码细节，将使用 **`FF`**。

如果您已定义了别名、社区、安全模型和视图，您只需将它们组合起来用于访问控制。这是通过 **`access`** 指令完成的。

访问限制绑定到组。**`context`** 列保持为空（**`'""`**），因为只有 SNMPv3 需要它.^([110]）。作为安全模型，你通常选择 **`any`**，但你也可以使用 **`v1`**、**`v2c`** 或 **`usm`** 定义一个特定的模型，因为可能将多个不同的安全模型分配给一个组，如本节开头“身份验证和安全”讨论中所示。第五列指定了安全级别，这对于 SNMPv3 也是感兴趣的。在其他两种安全模型（我们只使用 **`v1`**）中，**`noauth`** 被给出。第四列最后一列在 SNMPv3 中也有唯一的意义。但由于你必须为 SNMPv1 和 SNMPv2c 输入有效的值，因此这里选择 **`exact`**。

最后两列指定了哪种视图应该用于哪种访问（读取或写入）。在示例中，组 **`Local`** 和 **`NagiosGrp`** 获得了对视图 **`all`** 的读取访问，但没有写入访问。最后一列定义了代理是否应该为视图有效范围内发生的事件向管理器发送 SNMP 陷阱——即主动消息。14.6 应用示例 II：处理 SNMP 陷阱 从第 312 页更详细地介绍了 SNMP 陷阱。

使用这里描述的配置，你现在可以通过 SNMPv1 独家访问 Nagios 服务器和 **`localhost`** 以获取信息。可以通过定义一个只使 MIB 的部分可见的视图进一步限制服务器访问。但你应该在配置描述正常工作后尝试此操作，以避免逻辑错误和耗时的调试。

`系统与本地信息` 部分树 **`mib-2.system`** 提供了关于系统本身以及可用的（即已实现的）MIBs 的信息。使用 **`syslocation`** 你可以指定系统在公司或校园中的位置，并在关键字 **`syscontact`** 后输入负责管理员的电子邮件地址：

只要在此处不重新定义参数 **`sysname`** 和 **`sysdescr`**，默认情况下相应的 MIBs 将揭示主机名和/或系统和内核规范，对应于 **`uname -a`**：

`定义要监控的进程` 使用 SNMP 监控的进程通过 **`proc`** 指令指定，如果需要，你可以指定进程的最小或最大数量：

如果缺少最大和最小值的条目，至少必须有一个进程正在运行。如果只省略了最小值，NET-SNMP 将使用零进程定义此值。相应的条目最终会出现在 MIB **`ucdavis.prTable`** 中；在出错的情况下，你会收到一个错误标志（**`prError-Flag`** 和错误描述（**`prErrMessage`**）（遗憾的是，你不能自己定义它））：

**`ucdavis. prTable`** 仅显示已配置的进程；另一方面，它允许 **`mib-2.host.hrSWRun`** 和 **`mib-2.host.hrSWRunPerf`** 通常查询所有运行进程。如果您想防止这种情况，视图必须排除您不希望包含的区域。

`您的自定义命令` 使用 **`exec`** 指令，您可以在扩展 **`ucdavis.extTable`** 中指定命令，代理将在相应的查询中执行这些命令。结果随后将出现在相关条目中。在以下示例中，如果代理被要求查询 **`ucdavis.extTable`**，它将调用 **`/bin/echo`**：

要执行的程序必须在配置中以其绝对路径出现。运行 **`snmpwalk`** 只提供以下信息：

**`extTable.extEntry.extResult`** 包含执行命令的返回值，而 **`extTable.extEntry.extOutput`** 包含文本输出。

因此，使用 **`exec`** 指令可以查询本地脚本或程序可以找到的所有信息。然而，这可能会成为一个安全问题：如果使用的程序容易受到缓冲区溢出的影响，这个功能可能会被误用作为拒绝服务攻击的起点。

监控硬盘容量：**`disk`** 指令适用于监控文件系统。关键字 **`disk`** 后跟挂载点的路径，然后是应可用的最小硬盘空间（以 KB 或百分比表示）。如果您省略容量条目，至少必须有 100 MB 可用；否则将给出错误消息。

在以下示例中，**`/`** 文件系统的空闲容量不应低于 **`10%`**，在 **`/usr`** 上，至少应保留 800 MB 的空闲空间 ^([111])：

就数据分区 **`/data`** 而言，如果空闲容量低于 **`50%. dskErrorFlag`**，则应发出警报：在这种情况下，`dskErrorFlag` 的值应为 1 而不是 0，`dskErrorMsg` 包含错误文本：

**`dskPercent`** 显示当前负载为 **`65%`**。除了此处配置的部分树外，**`ucdavis.dskTable, mib-2.host.hrStorage`** 还提供了所有文件系统的概述，包括那些未明确定义的文件系统。然而，这些文件系统缺少百分比细节，并且您不会收到 **`ucdavis.dskTable`** 提供的错误状态或错误消息。

您应该仔细考虑是否在 NET-SNMP 或 Nagios 配置中设置警告限制。在前一种情况下，您必须在每个单独的主机上配置值。但是，如果您使用 **`check_snmp`** 插件（见第 246 页的 11.3.1 通用 SNMP 插件 check_snmp）查询百分比负载，那么您将在 Nagios 服务器上集中设置警告和临界限制，如果以后进行更改，这将节省您大量工作。**`includeAHDisks`** 指令将所有现有文件系统添加到 **`dskTable`** 表中：

它需要指定一个最小限制值（以百分比表示），并返回错误值。在这里无法进行绝对 KB 的指定。如果您为**`check_snmp`**集中设置警告和错误限制；（参见 11.3.1 通用 SNMP 插件 check_snmp，从第 246 页开始）则不会查询错误属性**`dskErrorFlag`**和**`dskErrorMsg`**，因此这里设置的最低限制值可以忽略。

`系统负载` **`load`** 指令查询 CPU 负载。作为限制值，您指定一分钟的平均值，可选的五分钟和十五分钟的平均值：

如果值超出范围，**`laErrorFlag`** 将包含状态 **`1`**（否则：**`0`**），而 **`laErrMessage`** 将包含错误信息的文本。

在超过指定限制的系统上，**`snmpwalk`** 返回以下内容：

从 **`laLoadlnt.1`** 我们得知系统 **`load`** 的一分钟平均值为整数，从 **`laLoad.l`** 作为字符串，从 **`laLoadFloat.1`** 作为浮点十进制。**`laErrorFlag.1`** 包含相应的错误状态，**`laErrMessage.1`** 包含相应的错误信息。其他两个平均值也适用同样的规则。

您也可以在这里使用**`check_snmp`**插件，以极高的精度查询浮点十进制值，并集中指定限制值。

* * *

^([106]) [`net-snmp.sourceforge.net/`](http://net-snmp.sourceforge.net/)

^([107]) [`www.kill-9.org/mbrowse/`](http://www.kill-9.org/mbrowse/)

^([108]) 参见第 236 页

^([109]) F= 1.2³+1.2²+1.2¹ +1.2⁰ = 1111, 8=1000

^([110]) 关于 SNMPv3 的相应描述将超出本书的范围

^([111]) 1024KB * 800

# 11.3 Nagios 自带的 SNMP 插件

在标准 Nagios 插件中，有三个程序可以通过 SNMP 获取数据：一个通用的插件可以查询您想要的任何 OID，以及两个专门处理网络卡接口数据和交换机、路由器等端口信息的 Perl 脚本。此外，**`contrib`** 目录包含其他未自动安装的 SNMP 插件源代码。显然，这些插件已经不再维护，并且需要代码的重大调整才能运行。

[`www.nagiosexchange.org/`](http://www.nagiosexchange.org/) 也提供了一些有用的专用插件，其中一些在 11.4 其他基于 SNMP 的插件中介绍，从第 255 页开始。由于篇幅限制，以下描述仅限于 SNMPv1/2 查询；对于 SNMPv3 特定的选项，请参阅相应插件的在线帮助。

## 11.3.1 通用 SNMP 插件 **`check_snmp`**

使用**`check_snmp`**，有一个通用的插件可以查询所有可用的信息，根据您的要求。然而，它的操作确实需要一定的谨慎，因为作为一个通用插件，它不知道它具体查询的是什么数据。

因此，其输出看起来相当简陋；专门的插件在这里提供了更多便利。但是，由于并非每个目的都有这些插件，因此**`check_snmp`**的使用是相当合理的。它调用程序**`snmpget`**，这意味着必须安装 NET-SNMP 工具。

它提供了以下选项：

**`-H`** **``*`address`*``**/ **`--host=`****``*`address`*``**

这是将被查询的 SNMP 代理的主机名或 IP 地址。

**`-o`** **``*`OID`*``** /**`--oid=`****``*`OID`*``**

这是将被查询的对象标识符，可以是完整的数值 OID，也可以是字符串，由**`snmpget`**解释（例如，**`system.sysName.O`**）。

注意：与**`snmpwalk`**不同，您必须始终指定包含信息的端节点。

**`-p`** **``*`port`*``** **`/ --port=`****``*`port`*``**

这是 SNMP 代理运行的备用端口。默认为 UDP 端口 161。

**`-C`** **``*`password`*``** **`/ --community=`****``*`password`*``**

这是读取访问的社区字符串。默认值为**`public`**。

**`-w`** **``*`start:end`*``** **`/ --warning=`****``*`start:end`*``**

如果查询值在由*start*和*end*指定的范围内，**`check_snmp`**不会输出警告。因此，对于**`-w 0:90`**，它必须大于 0 且小于 90。

**`-c`** **``*`start:end`*``** **`/ --critical=`****``*`start:end`*``**

如果查询值超出范围，插件将输出 CRITICAL。如果警告和临界限制重叠，则临界限制始终具有优先级

**`-s`** **``*`string`*``** **`/ --string=`****``*`string`*``**

查询的 OID 内容必须与指定的*字符串*完全匹配，否则**`check_snmp`**将输出错误。

**`-r`** **``*`regexp`*``** **`/ --ereg=`****``*`regexp`*``**

此选项检查查询的 OID 内容，以查看是否匹配正则表达式*regexp*^([112])。如果是这样，插件返回 OK，否则返回 CRITICAL。

**`-R`** **``*`regexp`*``** **`/ --erexi=`****``*`regexp`*``**

与**`-r`**类似，但没有任何大小写区分。

**`−1`** **``*`prefix`*``** **`/ --label=`****``*`prefix`*``**

放在插件响应前面的字符串。默认为**`SNMP`**。

**`-u`** **``*`string`*``** **`/ --units=`****``*`string`*``**

SNMP 只有简单值，没有单位。指定的字符串代替*string*被插件扩展到文本输出中，以便作为值使用单位。因为这里只涉及文本，所以您也可以指定**`apples`**或**`pears`**等作为“单位”。

**`-d`** **``*`delimiter`*``** **`/ --delimiter=`****``*`delimiter`*``**

这个字符将**`snmpget`**输出中的 OID 与值分开。默认是=。

**`-D`** **``*`分隔符`*``** **`/ --output-`** **`delimiter=`****``*`分隔符`*``**

插件能够同时查询多个 OID。结果值由*分隔符*分隔，默认是一个空格。

**`-m`** **``*`mibs`*``** **`/ --miblist=`****``*`mibs`*``**

这指定了**`snmpget`**应该加载的 MIB。默认是**`ALL.-m +UCD-DEMO-MIB`**^([113]）。加载*附加的*，**`-m UCD-DEMO-MIB`**（没有**`+`**符号）*仅*加载指定的 MIB.^([114]）。

**`-P`** **``*`version`*``** **`/ --protocol=`****``*`version`*``**

定义 SNMP 协议版本。*版本*的值是**`1`**或**`3`**。如果没有此选项，则使用 SNMPv1。

SNMP 提供了几乎无限的可能性，所以以下示例只能传达对其他插件使用的感觉。

### 通过 SNMP 测试硬盘容量

以下命令查询文件系统的负载，为此访问本地运行的 NET-SNMP 代理的局部树**`ucdavis.dskTable`**：

查询适用于索引号为 2 的文件系统的百分比负载。只要硬盘空间使用率不超过 90%，测试应该返回 OK；如果它在 91%到 95%之间，则返回警告，如果超过这个范围，则返回关键状态。多亏了**`-u`**选项，**`check_snmp`**将**`percent`**描述添加到确定的数值输出中。

然而，插件并没有说出全部真相：使用**`df`**进行的测试检查显示 96%的负载，这是因为该程序正确地将实际的 95.8%负载向上取整，而 SNMP 中的整数值很少向上取整，而是简单地截断。所以只要 MIB 不提供任何浮点小数，你就只能忍受轻微的不准确。

如果你想让内容更详细，可以使用选项**`−1: −1 'SNMP-DISK: /net/swobspace/b'`**，这会导致其他，自定义的信息被添加到上述命令的输出中：

上述查询可以通过以下命令对象更一般地运行：

此定义假定要查询的值是数值，而不是布尔值（参见监控网络接口），否则同时指定警告和关键值就没有意义。我们在这里将社区存储在宏**`$USER3$`**中.^([115]）。这后面跟着协议版本（**`-P 1`**代表 SNMPv1），OID，警告和关键限制，以及一个前缀。

在服务定义中对该命令的调用形式是

如果你想要通过 **`dskTable`** 特定地监控计算机 **`swobspace`** 上索引号为 2 的文件系统的负载，那么以下定义将被使用：

尽管这里的 **`check_command`** 行被换行了，但在实际操作中，所有参数必须位于同一行，由感叹号 **`!`**（分隔符前后没有空格）分隔。

### 通过 **`lm-sensors`** 测量温度

下一个测试检查主机的 CPU 温度。对于传感器，这里使用的是 **`lm-sensors`** 软件包^([116]), 它访问现代主板上相应的芯片。一旦 **`lm-sensors`** 激活，它允许 NET-SNMP 代理从部分树 **`ucdavis.ucdExperimental.lmSensors:`** 中读取相应的信息。

输出取决于芯片组：在这里你必须将查询值乘以 1000 的系数。因此，你别无选择，只能将警告和临界限制调整到你使用的主板。在示例中，CPU 温度为 41 摄氏度，处于“绿灯”状态：如果它低于 25 摄氏度或高于 45 摄氏度，将会触发警告，而低于 20 摄氏度或高于 48 摄氏度，则会被视为临界。

### 正则表达式和比较固定字符串

你可以检查文本 **`swobspace`** 是否出现在系统名称中，方法如下：

除了使用 **`-r`** 作为正则表达式来定义要搜索的字符串外，你也可以使用 **`-s`** 选项。然后文本必须完全匹配，但这可能相当棘手，因为 **`snmpget`** 在分隔符 **`=`** 之后输出的所有内容都算数。

### 监控网络接口

最后一个示例查询的是否是 Cisco 路由器的第一个网络接口正在运行：

所需信息可以在 **`ifOperStatus`** 中找到。在这里我们查询端口 1。而 **`ifOperStatus`** 提供操作状态，**`ifAdmin-Status`** 则揭示接口是否被管理性地开启或关闭。

在这里指定警告限制时，我们使用范围 **`1:1`**，这样插件就会在接口物理关闭时发出警告，因此返回值是 0。在这里我们不需要定义临界状态，因为只有两种状态，“开启”或“关闭”。如果插件在接口关闭时返回 CRITICAL，你应该使用 **`-c 1:1`** 并完全省略 **`-w`**。

如果你只想查询网络接口的状态，你当然应该看看下面描述的插件 **`check_ifstatus`** 和 **`check_ifoperstatus`**，它们提供了稍微更多一些的操作便利性。

如果 MIB-II 或 MIB **`ucdavis`** 没有提供所需的信息，你也可以看看制造商提供的 MIB。你可以从 **`mib-2.system`** 中找出整体 MIB 隐藏在哪个部分树中：

该示例涉及一台名为**`konica01.system.sysObjectID.0`**的网络功能型柯尼卡复印机，表明**`enterprises.2364`**是设备特定细节的入口点。使用**`snmpwalk`**，您可以进一步获取信息：

在这台复印机的具体情况下，您可以通过**`enterprises.2364.1.2.6.1.1.5.1.1`**查询当前设备状态。制造商通常存储有关实现 MIB 的信息，这样您就不必仅仅猜测。

## 11.3.2 同时检查多个接口

活动网络组件，如交换机，通常具有相当多的端口，检查每一个端口都会非常耗时。在这里，**`check_ifstatus`**插件非常有用，因为它可以同时测试所有端口。它通过 SNMP 检索此信息，并具有以下选项：

**`-H`** **``*`address`*``** **`/ --host=`****``*`address`*``**

这是将被查询的 SNMP 代理的主机名或 IP 地址。

**`-C`** **``*`password`*``** **`/ --community=`****``*`password`*``**

这设置了读取访问的社区字符串。

**`-p`** **``*`port`*``** **`/ --port=`****``*`port`*``**

此参数是 SNMP 代理运行的备用端口。默认为 UDP 端口 161。

**`-v`** **``*`version`*``** **`/ --snmp_version=`****``*`version`*``**

此参数指定查询的 SNMP 版本（**`1`**、**`2`**或**`3`**）。

**`-x`** **``*`list`*``** **`/ --exclude=`****``*`list`*``**

使用此选项来指定不应查询的逗号分隔的接口类型列表（请参见以下示例）。

**`-u`** **``*`list`*``** **`/ --unused_ports=`****``*`list`*``**

使用此选项来指定应从测试中排除的所有端口的逗号分隔列表。像**`-x`**一样，该列表由接口索引组成，这些索引由**`if Index: -u 13,14,15,16`**确定。

**`-M`** **``*`bytes`*``** **`/ --maxmsgsize=`****``*`bytes`*``**

这是 SNMP 数据包的最大大小；默认为**`1472`**字节。

使用排除列表，可以排除某些接口类型或端口号，可能是因为这些端口未被占用，或者连接到 PC 或其他设备，而这些设备并不总是运行。

使用以下查询，我们可以找出例如，在名为**`cisco01`**的 Cisco 交换机上哪些接口类型被组合在一起：

如果要排除接口类型**`other(1)`**和**`propVirtual(53)`**，则插件将发送带有两个数字的排除列表**`-x 1,53`**：

实际上，此插件也不会在其输出中显示多行，尽管这里的换行可能暗示了这一点。此信息之所以在 Nagios Web 界面中以相对清晰的形式出现，是因为其中加入了 HTML 格式化元素**`<BR>`**。这导致每个端口的输出都显示在不同的行上。**`|`**字符定义性能数据的开始，在 Web 界面中根本不会出现。

此类查询作为以下命令对象实现：

这里也使用了宏**`$USER3$`**来在文件**`resource.cfg`**中定义社区字符串。总共有 32 个**`$USERx$`**宏可用，其中前两个通常包含路径细节，其余的可以按您希望的方式使用。

如果您希望排除端口而不是接口类型，可以在定义中使用**`-u`**选项而不是**`-x`**。

如果 Nagios 要监控**`cisco01`**交换机，如上所示，排除接口类型**`1`**和**`53`**，相应的服务定义如下：

## 11.3.3 测试单个接口的运行状态

要测试单个接口，可以使用通用的插件**`check_snmp`**或**`check_ifoperstatus`**，后者专门测试网络卡的运行状态（**`ifOperStatus`**）。与通用插件相比，其优势主要在于易于使用：您不仅可以指定端口的索引，还可以指定其描述，例如，**`eth0`**。

**`check_ifoperstatus`**具有以下选项：

**`-H`** **``*`address`*``** **`/ --host=`****``*`address`*``**

这是待查询的 SNP 代理的主机名或 IP 地址。

**`-C`** **``*`password`*``** **`/ --community=`****``*`password`*``**

此参数给出读取访问的社区字符串。

**`-p`** **``*`port`*``** **`/ --port=`****``*`port`*``**

只要 SNMP 代理不在 UDP 端口 161 上运行，就可以使用此选项指定端口。

**`-k`** **``*`ifIndex`*``** **`/ --key=`****``*`ifIndex`*``**

*ifIndex* 是要查询的网络接口的编号（例如计算机的网络卡或交换机的端口）。

**`-d`** **``*`ifDescr`*``** **`/ --descr=`****``*`ifDescr`*``**

与索引键不同，该插件处理接口名称，从 *ifDescr*（见下文）获取。

**`-v`** **``*`version`*``** **`/ --snmp_version=`****``*`version`*``**

此处指定查询的 SNMP 版本（**`1, 2`**，或 **`3`**）。

**`-w`** **``*`return_value`*``** **`/ --warn=`****``*`return_value`*``**

此选项选择在接口休眠时的返回值。*return_value* 可以是 **`i`**（忽略休眠状态并返回 OK!），**`w`**（警告）或 **`c`**（严重，默认值）。

**`-D`** **``*`return_value`*``** **`/ --admin-down=`****``*`return_value`*``**

如果接口被管理员关闭，插件应该返回什么值（**`i`**、**`w`** 或 **`c`**）？默认值 **`w`** 会发出警告，**`c`** 返回 CRITICAL，**`i`** 返回 OK。

**`-M`** **``*`bytes`*``** **`/ --maxmsgsize=`****``*`bytes`*``**

这是 SNMP 数据包的最大大小；默认为 **`1472`** 字节。

在一个名为 **`igate`** 的系统上，其中 **`snmpwalk`** 找到以下接口 ...

第一块以太网卡可以通过 **`-k 7`** 或 **`-d etho`** 进行测试。由于在第二种情况下，插件必须查询所有 **`ifDescr`** 条目以确定索引本身，这种变化会产生更高的网络负载。如果主机上的不是所有网络接口都处于活动状态，导致其索引发生变化，这特别有用。

插件本身会显示当前端口的索引：

作为 Nagios 配置中的命令对象，调用看起来是这样的：

**`$USER3$`** 宏再次包含社区字符串，该字符串在文件 **`resource.cfg`** 中定义。**`igate`** 服务的定义指定了要测试的接口名称作为插件参数：

* * *

^([112]) POSIX 正则表达式，请参阅 **`man 7 regex`**。

^([113]) **`UCD-DEMO-MIB`** 是一个用于演示目的的 MIB

^([114]) 参见在线帮助，使用 **`man snmpcmd`**

^([115]) **`$USERx$`** 宏定义在资源文件 **`resource.cfg`** 中

^([116]) [`www.lm-sensors.nu/`](http://www.lm-sensors.nu/)

# 11.4 其他基于 SNMP 的插件

除了 Nagios 插件包中的 SNMP 插件外，Nagios 社区还提供大量针对特殊目的的其他插件。大多数可以在 **`[`www.nagiosexchange.org/`](http://www.nagiosexchange.org/)`** 的 `Check Plugins | SNMP` 类别中找到。^([117])

## 11.4.1 使用 **`nagios-snmp-plugins`** 监控硬盘空间和进程

其中之一是包 **`nagios-snmp-plugins`**，^([118]) 它不仅存在源代码版本，也存在 RPM 包（适用于 Red Hat 和 Fedora）。它包含两个非常易于使用的插件：**`check_snmp_disk`** 和 **`check_snmp_proc`**。

它们都绝对需要 NET-SNMP 代理作为另一侧的合作伙伴（参见第 238 页的 11.2.2 The NET-SNMP daemon），并使用 **`ucdavis.dskTable`** 和 **`ucdavis.prTable`** 测试配置文件 **`snmpd.conf`** 中指定的进程和文件系统。其选项仅限于指定主机和社区字符串：

**`-H`** **``*`address`*``** **`/ --host=`****``*`address`*``**

这是将被查询的 NET-SNMP 代理的主机名或 IP 地址。

**`-C`** **``*`password`*``** **`/ --community=`****``*`password`*``**

这是读取访问的社区字符串。

以下示例测试了 **`/data`** 文件系统的可用容量；再次使用 **`public`** 作为社区字符串：

NET-SNMP 代理的配置使用 **`disk`** 指令 (配置文件 snmpd.conf)，将 **`50%`** 作为此文件系统的阈值。在这种情况下，插件相应地返回 CRITICAL。它只能区分错误和正常；没有警告状态。

使用 **`check_snmp_proc`** 同样简单：

插件再次使用 **`proc`** 指令 (配置文件 snmpd.conf) 测试 NET-SNMP 代理配置中定义的进程。这里缺少 **`slapd`** 进程，因此返回 CRITICAL。返回值通过 **`echo $?`** 揭示。

相应的命令对象以类似不引人注目的方式定义：

此定义还假设社区字符串存储在文件 **`resource.cfg`** 中的 **`$USER3$`** 宏中。为了查询计算机 **`linux01`** 上的 NET-SMTPD 的硬盘负载，定义以下服务对象：

## 11.4.2 使用 **`check-iftraffic`** 检查网络接口的负载

MIB-II 只包含关于网络接口负载的信息数字，但没有使用带宽的平均值，例如。如果供应商在其 MIB 中没有特别提供此类条目，那么您将始终需要记录最后计数器状态和时间戳，以便您可以自己计算出相对使用情况。

**`[`www.nagiosexchange.org/`](http://www.nagiosexchange.org/)`** 介绍了两个插件，它们接管此任务。基于 Perl 的插件 **`check_traffic`**^([119]) 将查询值写入 *循环冗余数据库*（RRD，见 19.2 使用 Nagiosgraph 在 Web 上创建图形)，这使得处理稍微复杂一些。

通过 **`check_iftraffic.pl`** 插件.^([120])，以更简单的方式达到相同的目的。它有以下选项：

**`-H`** **``*`address`*``** **`/ --host=`****``*`address`*``**

*`address`* 是要查询的 NET-SNMP 代理的主机名或 IP 地址。

**`-C`** **``*`password`*``** **`/ --community=`****``*`password`*``**

**``*`password`*``** 是读取访问的社区字符串。默认为公开。

**`-i`** **``*`ifDescr`*``** **`/ --interface=`****``*`ifDescr`*``**

从接口名称 **``*`ifDescr`*``**，插件确定索引以便它可以访问其他值（例如，计数器状态）。

**`-b`** **``*`integer`*``** **`/ --bandwith=`****``*`integer`*``**

这是接口的最大带宽，以比特为单位（见 **`-u`**）。

**`-u`** **``*`单位`*``** **`/ --units=`****``*`单位`*``**

这是使用**`-b`**指定的带宽的单位。可能的值是**`g`**（Gbit）、**`m`**（Mbit）、**`k`**（kbit）和默认的**`b`**（bit）：**`-b 100 -u m`**对应于 100 兆比特（快速以太网）。

**`-w`** **``*`整数`*``** **`/ --warning=`****``*`整数`*``**

如果流量超过此警告限制的百分比（默认：**`85`**%），则插件发出警告。

**`-c`** **``*`整数`*``** **`/ --critical=`****``*`整数`*``**

这是百分比中的临界阈值（默认：**`92`**%）。

该插件将查询界面的时间戳和计数器状态保存在**`/tmp`**目录下的文件中，并在其前添加前缀**`traffic`**。因此，如果你在命令行上使用不同于**`nagios`**的用户 ID 进行手动测试，应在激活适当的 Nagios 服务之前删除**`/tmp/traffic`**目录下的**`_interface_computer`**文件。

以下命令行示例查询了计算机**`linux01`**上的快速以太网网络接口**`etho`**，理论上具有 100 Mbit 的带宽：

此处传输的数据量由插件分别报告，根据方向不同，这里宣布了 60.32 MB（**`RX`**，"接收")和 26.59 MB（**`TX`**，"发送")。文本包含 HTML 元素**`<br>`**（换行），用于在 Nagios Web 界面上显示输出为两行。随后是平均传输速率，再次分别针对传入和传出数据流量。**`|`**符号之后的性能数据（见 19.1 使用 Nagios 处理插件性能数据，第 404 页）仅包含平均负载的百分比，每个值分别对应传入和传出。数字**`85`**和**`98`**是警告和临界限制的默认值。

相应的命令对象实现如下：

如果直接采用定义，必须在**`$USER3$`**宏中定义社区字符串。如果你只一般性地使用**`public`**作为密码，最好写成**`-C public`**而不是**`-C $USER3$`**。

为了简化以下服务定义中命令的调用，我们将单位设置为兆比特/秒（**`-u m`**）。

**`check_iftraffic`**通过比较不同时间点的两个计数器状态来计算使用的带宽。由于 Nagios 不能精确到秒进行测试，因此你选择的检查间隔不应太小。显示带宽使用的图形形式的**`Multi Router Traffic Grapher`**，^([121])通常以五分钟为间隔工作。

如果你选择 **`max_check_attempts`** 不是 **`1`**，你应该确保重试间隔（**`retry_check_interval`**）与正常检查间隔相同。对于 **`max_check_attempts 1`** 这没有区别，但你必须在某个时候定义一个 **`retry_check_interval`**。

## 11.4.3 用于特殊应用目的的 [manubulon.com](http://manubulon.com) 插件

Nagios Exchange，其中包含可在 [`www.manubulon.com/nagios/`](http://www.manubulon.com/nagios/) 找到的 SNMP 插件（见 表 11-4），还包括一些针对特定应用定制的插件，例如查询硬盘空间。它们相对简单易用。

表 11-4. [manubulon.com](http://manubulon.com)-SNMP 插件

| 插件 | 描述 |
| --- | --- |
| **`check_sn.mp_storage.pl`** | 存储设备（硬盘驱动器、交换空间、主内存等）查询 |
| **`check_snmp_int.pl`** | 接口状态和负载 |
| **`check_snmp_process.pl`** | 进程：状态、CPU 和内存使用情况 |
| **`check_snmp_load.pl`** | 系统负载 |
| **`check_snmp_mem.pl`** | 主内存和交换空间使用情况 |
| **`check_snmp_vrrp.pl`** | 查询诺基亚-VRRP 集群 ^([a]) |
| **`check_snmp_cpfw.pl`** | 查询 Checkpoint firewall-1^([b]) |
| **`check_snmp_env.pl`** | 测试交换机等环境参数，如温度、电源单元和风扇（思科、Foundry 等） |
| **`check_snmp_win.pl`** | 通过 SNMP 查询 Windows 服务 |

|

^([a]) VRRP 的缩写代表 *虚拟路由冗余协议*。

^([b]) [`www.checkpoint.com/products/firewall-1/`](http://www.checkpoint.com/products/firewall-1/)

|

我们将在这里详细介绍两个插件——**`check_snmp_storage.pl`** 和 **`_snmp_load.pl`**。

### 使用 **`check_snmp_storage`** 保持对存储介质的检查

虽然 **`check_snmp_disk`** 插件，如第 256 页的 11.4.1 使用 nagios-snmp-plugins 监控硬盘空间和进程 中所述，仅检查在 NET-SNMP 配置中输入的文件系统，但 **`check_snmp_storage.pl`** 能够查询任何存储介质——甚至交换空间或主内存——无需在目标主机上进行预先配置。**`check_snmp_storage.pl`** 测试的是 **`mib-2`** 的部分树，这里的 **`host`**，而 **`check_snmp_mem.pl`** 使用 **`ucdavis.memory`**，因此它仍然局限于 NET-SNMP。

你不必与 OID 作战，而是可以使用 **`swap space`** 类型的描述来指定存储介质的类型，这提供了一定程度的便利。这些可以通过以下方式使用 **`snmpwalk`** 进行查询：

当插件被调用时，**`STRING`**之后指定的文本就足够了，或者如果唯一的话，是这部分的一部分：

在第二个示例中，只需指定**`Swap`**，即可查询**`交换空间`**的数据，因为模式是唯一的。**`-f`**选项确保**`check_snmp_storage.pl`**将在其输出中包含性能数据。

**`-w`**和**`-c`**以常规方式指定可用内存空间的警告或临界限制的百分比。以下概述列出了所有选项：

**`-H`** **``*`地址`*``** **`/ --host=`****``*`地址`*``**

这是将要查询的 NET-SNMP 代理的主机名或 IP 地址。

**`-C`** **``*`字符串`*``** **`/ --community=`****``*`字符串`*``**

这是读取访问的共同体字符串。

**`-p`** **``*`端口`*``** **`/ --port=`****``*`端口`*``**

**``*`端口`*``**指定一个替代端口，如果 SNMP 代理不在默认的 UDP 端口 161 上运行。

**`-m`** **``*`字符串`*``** **`/ --name=`****``*`字符串`*``**

**``*`字符串`*``**包含要查询的设备的描述，对应于其在**`hrStorageDescr`**中的描述（见上文），例如**`-m "交换空间"`**用于交换设备，**`-m "真实内存"`**用于主内存，或**`-m "/usr"`**用于文件树中挂载在**`/usr`**的分区。

**`-w`** **``*`百分比`*``** **`/ --warn=`****``*`百分比`*``**

如果使用的内存比例超过指定的阈值，默认情况下会发出警告。其他警告限制可以通过**`-T`**参数定义。

**`-c`** **``*`临界`*``** **`/ --critical=`****``*`临界`*``**

默认情况下，如果使用的内存比例超过指定的临界限制，状态将被分类为临界。也可以通过**`-T`**参数指定其他临界限制。

**`-T`** **``*`选项`*``** **`/ --type=`****``*`选项`*``**

临界和警告阈值指的是什么？

+   **`pu`** (*使用百分比*): 使用容量（百分比）

+   **`pl`** (*剩余百分比*): 百分比剩余空间

+   **`bu`** (*使用字节*): 使用容量（兆字节）

+   **`bl`** (*剩余字节*): 百分比剩余空间

默认是**`-T pu`**。

**`-r`** **`/ --noregexp`**

通常，**`-m`**参数中的描述被视为正则表达式。例如，这里的**`/var`**代表包含**`/var`**的所有文件系统，例如**`/var`**和**`/var/spool/imap`**，前提是这些确实是两个独立的文件系统。**`-r`**选项关闭正则表达式功能，因此指定**`/var`**将精确匹配此文件系统，但不匹配例如**`/var/spool/imap`**。

**`-s`** **`/ --sum`**

而不是对几个指定的存储介质进行单独测试，将总占用空间加起来并与总容量进行比较。然后确定是否超过阈值。

**`-i`** **`/ --index`**

使用 **`-m`**，通常指定一个文本，该文本会在描述 **`hrStorageDescr`** 中再次出现。使用 **`-i`** 选项时，使用索引表而不是描述。在这里，正则表达式功能也适用：**`-m 2`** 匹配索引中包含数字 **`2`** 的所有条目（即，**`2, 12, 20`** 等）。因此，同时使用 **`-r`** 选项是有意义的。

**`-e`** **`/ --exclude`**

现在，所有与 **`-m`** 规范匹配的内存都被排除在测试之外，剩余的内存包含在测试中。

**`-f`** **`/--perfparse`**

此选项提供额外的性能数据输出，这些数据未在 Web 界面中显示，但可以通过其他工具评估（见第十九章）。

### 使用 **`check_snmp_load`** 测试系统负载

插件比较平均系统负载，形式为一分钟、五分钟和十五分钟的平均值，或者以百分比表示的 CPU 负载。

**`-H`** **``*`address`*``** **`/ --host=`****``*`address`*``**

这是将被查询的 NET-SNMP 代理的主机名或 IP 地址。

**`-C`** **``*`string`*``** **`/ --community=`****``*`string`*``**

这是读取访问的社区字符串。

**`-p`** **``*`port`*``** **`/ --port=`****``*`port`*``**

**``*`port`*``** 是 SNMP 代理运行的替代 UDP 端口。默认为 UDP 端口 161。

**`-w`** **``*`warning_limit`*``** **`/ --warn=`****``*`warning_limit`*``**

警告限制可以是一个简单的整数百分比（例如，**`90`**）或由逗号分隔的整数三元组，它定义了系统负载平均的阈值，用于一分钟、五分钟和十五分钟（例如，**`8,5,5`**）。另一方面，百分比负载始终指代最后分钟的 CPU 负载。

如果插件查询 NET-SNMP 代理，则必须在第二种变体中另外指定 **`-L`** 选项，对于百分比，**`-N`**。

**`-c`** **``*`critical_limit`*``** **`/ --crit=`****``*`critical_limit`*``**

这指定了一个临界限制；语法与 **`-w`** 相同。

**`-L`** **`/ --linux`**

此选项指定插件通过 NET-SNMP 查询 Linux 系统的系统模式。

**`-A`** **`/ --as400`**

此选项指定查询 AS/400 机器上的 CPU 负载。

**`-I`** **`/ --cisco`**

此选项指定 Cisco 网络组件的 CPU 负载涉及。

**`-N`** **`/ --netsnmp`**

如果插件通过 NET-SNMP 查询 Linux 系统的 CPU 负载百分比，则必须指定 **`-N`** 选项。

**`-f`** **`/--perfparse`**

此选项确保输出未在 Web 界面中显示的性能数据，但可以通过其他工具评估（见第十九章）。

以下示例通过 NET-SNMP 查询计算机**`swobspace`**的系统负载，并指定了一分钟、五分钟和十五分钟平均值的阈值：

第二个示例涉及同一台机器的 CPU 负载百分比。在这里，我们除了请求性能数据外，还像往常一样重复了测量的值和阈值。

* * *

^([117]) [`www.nagiosexchange.org/SNMP.51.0.html`](http://www.nagiosexchange.org/SNMP.51.0.html)

^([118]) ftp://ftp.hometree.net/pub/nagios-snmp-plugins/

^([119]) [`nagios.sourceforge.net/download/contrib/misc/check_traffic/`](http://nagios.sourceforge.net/download/contrib/misc/check_traffic/)

^([120]) [`www.nagiosexchange.org//51;37`](http://www.nagiosexchange.org//51;37)

^([121]) [`www.mrtg.org/`](http://www.mrtg.org/)

# 第十二章. Nagios 通知系统

如果系统出现问题时没有通知正确的联系人，系统和网络监控还有什么意义？几乎没有任何系统或网络管理员能够持续关注 Nagios Web 界面并等待状态变化。一个实用的工作系统必须主动通知管理员（推送信息），这样管理员就有时间处理其他事情，并且只有在 Nagios 发出警报时才需要干预。

一个通知系统是否在实际中发挥作用，最终取决于它如何适应特定情况的要求。对某个人来说可能是关键错误的错误，对另一个人来说可能不是正常但仍然可以容忍的，没有什么比被大量看似错误但甚至在某些环境中不被视为错误的消息轰炸更糟糕了。过多的错误信息会使管理员变得粗心大意，并且最终真正的问题会淹没在错误消息的洪流中。

Nagios 提供了一个复杂的通知系统，允许您根据自身需求对环境进行精细调整。一开始的广泛设置可能看起来令人困惑，但一旦理解了基本原理，一切都会变得清晰许多。

保持 Nagios 小巧和模块化的努力也适用于通知系统：发送消息再次由系统交给外部程序：从简单的电子邮件到短信，再到硬件解决方案——例如服务器机柜上的真实交通灯——任何可能的事情都是可能的。

# 12.1 应在何时通知谁？

为了让 Nagios 发送有意义的消息，管理员必须回答四个问题：

+   系统应在何时生成消息？

+   应在何时发送？

+   系统应通知谁？

+   消息应该如何发送？

![通知系统的概述](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223820.png)

图 12-1. 通知系统的概述

图 12-1 给出了概念的大致轮廓。服务和主机检查生成消息，然后该消息通过各种过滤器，^([122])这些通常与时间有关。*联系人*指的是 Nagios 应该通知的人。如果消息通过了所有测试，系统将其交给一个外部程序，该程序通知相应的联系人。

* * *

^([122]) 严格来说，在主机或服务中定义的过滤器阻止消息的创建，而不是过滤已经生成的消息。然而，为了简化问题，我们假设 Nagios 创建了一个随后被相应过滤器丢弃的消息。

# 12.2 消息何时发生？

每条消息都由主机或服务检查开始，这确定了当前状态。在以下两种情况下，它会生成一条消息：

+   一个硬状态变为另一个硬状态。

+   一台计算机或服务保持在一个硬错误状态。（因此，测试确认了一个已经存在的问题。）

为了提醒您：**`max_check_attempts`** 参数（参见 2.3 定义要监控的机器，包括主机和 2.5 定义要监控的服务)定义了在主机和服务对象中，在 Nagios 将新状态分类为“硬”之前，测试应该重复多少次。如果设置为**`1`**，这立即就是情况，并随后产生相应的消息。如果值大于 1，系统会重复测试这么多次数，并且只有当它们都得到相同的新结果——例如确定 CRITICAL 错误状态——状态才会最终变为新的硬状态，从而触发新的通知。

只要 Nagios 没有达到指定的重复次数，就存在一个软状态。如果在这些重复完成之前旧状态再次出现，除非管理员查看 Web 界面或日志文件，否则管理员将不会得到通知。最终，管理员只对真正的未解决问题感兴趣。另一方面，为了评估可用性，通常连续几分钟服务不可用确实很重要，这就是为什么在评估中也考虑了软状态。

# 12.3 消息过滤器

即使您在系统范围内定义 Nagios 不仅可以通过 Web 界面和日志文件，还可以通过电子邮件和/或短信来引起对错误的注意，但在某些情况下，主机和服务定义中的过滤器参数可能会取消这些基本决定。在所有情况下，最终决定权在于为相关联系人定义的过滤器。在每个这三个级别（系统范围、主机/服务、联系人）上起作用的参数是什么，在图 12-2 中有描述。

如果一个过滤器阻止了通知，那么过滤器链就“在真空中”结束，换句话说——在层次结构中更低的过滤器选项仍然没有被考虑——Nagios 不会生成任何消息。

![Nagios 通知系统中的过滤器序列（一些参数仅从 Nagios 版本 3.0 开始可用）](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223822.png.jpg)

图 12-2. Nagios 通知系统中的过滤器序列（一些参数仅从 Nagios 版本 3.0 开始可用）

## 12.3.1 在系统范围内开启和关闭消息

在中央配置文件**`nagios.cfg`**中的**`enable_notifications`**参数，原则上可以定义 Nagios 是否应该发送消息。只有当它设置为**`1`**时，通知系统才会工作：

## 12.3.2 启用和抑制计算机和服务相关的消息

在定义主机或服务时，各种参数可以影响消息系统。在这里，您可以定义，例如，Nagios 应该在什么时间发送消息，是否应该定期通知联系人错误状态，以及关于哪些状态或状态变化他应该被告知（仅 CRITICAL，或者 WARNING 等）。

开关**`notifications_enabled`**确定这个特定的计算机或服务是否足够重要，以至于管理员不仅应该通过 Web 界面，还应该通过其他方式被告知错误。如果是这样，该参数必须设置为**`1`**：

这也是默认情况，因此您必须在此处显式地将值设置为**`0`**以停止单独的通知。

### 考虑停机时间

在特定服务或主机故意不可用的时候，Nagios 当然不应该通过网络发送任何错误消息。相应的维护期配置（*停机时间安排*）只能通过 Web 界面进行，并在第 359 页的 16.3 计划停机时间中描述。

### 哪些状态和状态变化值得发送通知？

如果常规测试显示服务或计算机正在持续更改其数据，这在 Nagios 中被称为*摆动*（参见第 611 页的附录 B，第 332 页）发布确认，则不会发送通知，但如果管理员没有及时反应，那么一旦延迟期过期，Nagios 就会发送第一次通知。此选项对于避免在管理员在正常工作时间期间使用 Web 界面定期检查系统时发送不必要的通知非常有用。

### 消息是谁关注的？

在主机或服务对象中定义的联系人组本身不属于消息过滤器，但它仍然决定谁被通知，谁不被通知：

哪些联系人属于指定的组（此处：**`admins`**）是由其定义对象中的相应**`contact_group`**对象定义的（参见 2.8 消息接收者：联系人组，第 72 页）：

尽管指定的联系人组仅进行粗略的预选：其中指定的哪些联系人实际上会收到消息取决于单个联系人定义中的过滤器函数。通过这种方式，你可以确保一位员工只在正常办公时间内被通知，另一位员工全天候被通知，其中一位员工需要了解所有状态变化，而另一位员工只被通知选择的一部分（例如，只有 CRITICAL 而不是 WARNING）。

## 12.3.3 与人员相关的过滤器选项

在定义**`contact`**对象时，也指定了 Nagios 在特定情况下如何发送通知的方法（参见第 275 页的 12.4 外部通知程序）。它可以分别针对主机和服务问题进行描述。还可能有几种并行方法，例如通过电子邮件**和**短信。

由于与联系人相关的过滤器专门针对相应的联系人对象，因此为同一个收件人定义几个参数不同的联系人肯定是有用的，例如一个联系人对象在正常工作时间通过电子邮件通知所有问题，另一个用于工作外时间的短信消息。

### Nagios 应该通知你什么？

应通知某人的事件不仅可以由主机或服务指定，也可以由联系人指定。在这里分别定义与主机和服务相关的状态：

可能的值与主机-服务参数**`notification_options`**相同（参见第 12.3.2 节的启用和抑制计算机和服务相关消息）。

从 Nagios 3.0 开始，您通常可以通过一个附加参数来切换主机和服务的通知：

值 0 阻止相应的消息，值 1 确保消息被发送。乍一看，这对应于伴随选项参数的值**`n`**（无通知）。

两个**`*_notifications_enabled`**参数也可以通过外部命令**`ENABLE/DISABLE_CONTACT_HOST_NOTIFICATIONS`**和**`ENABLE/DISABLE_C0NTACT_SVC_N0TIFICATI0NS`**^([123])来开启和关闭，这是通过外部命令接口实现的（参见第 292 页的 13.1 外部命令接口）。这可以通过一个涉及联系人的脚本完成，无需更改预设的**`*_notification_options`**。

### 消息何时到达收件人？

过滤链中的最后一个过滤器再次引用时间段。如果在此指定的时间段内产生消息，Nagios 会通知联系人；否则它会丢弃该消息。通知窗口可以分别为主机和服务的设置，并且它期望一个在别处定义的**`timeperiod`**对象作为值：

## 12.3.4 案例示例

### 通知一次，但可靠地完成

如果只为服务状态的每次变化发送一条消息，但这条消息必须在工作时间内始终到达相关收件人，你应该怎么做？我们可以通过将**`admins`**联系人组作为例子来说明这个问题的解决方案，该组分配了联系人**`wob`**，...

...以及针对计算机**`linux01`**的**`PING`**服务：

**`notification_interval 0`**通常强制 Nagios 不产生任何重复消息。**`notification_period`**通过**`timeperiod`**对象**`workhours`**确保所需的时间段：如果 Nagios 在其他时间发出警报，则使用内置的*重新安排*，即只有当指定的时间段再次适用时，才会发送通知。它绝对不会被丢弃。

为了使 Nagios 在所有状态变化中保持活跃，**`notification_options`**必须始终覆盖所有可能的服务事件。

为了确保联系人**`wob`**始终收到消息，重要的是在相应的**`contact`**对象中**`service_notification_period`**设置为**`24x7`**：

在这个位置设置一个受限的时间过滤器，在特定情况下可能会导致每个单独的消息丢失。对于**`service_notification_options`**的值也是如此：只有当所有这些值都输入到这里时，才不会丢失任何消息。

### 在不同时间通知不同的管理员

如果您想在不同的时间通知不同的人关于不同的事件，您可能不能限制主机或服务的**`notification_period`**或**`notification_options`**：

过滤仅针对单个联系人进行。为了在时间级别上使其工作，您必须确保 Nagios 在错误状态持续时定期生成消息（此处为每 120 个时间单位，通常是分钟）。

如果管理员 A 只想在工作时间内收到通知，并且只通知关键或正常状态的变化，A 的联系人对象将带有以下参数：

与第一个例子相比，还有一个第二个不那么明显的变化：让我们假设该服务在早上 7:30 报告 CRITICAL 状态，这将持续几个小时。**`workhours`**对象被定义为描述周一至周五上午 8:00 至下午 18:00 的时间。在上面的例子中，Nagios 会暂时保留消息（重新安排），直到达到其中定义的时间段。因此，管理员将在 8:00 收到相应的消息。

在这里描述的情况下，不会进行重新安排，Nagios 每两小时生成一条相应的消息，如果联系人当前正在休息，则该消息会被过滤掉。系统相应地在 7:30 丢弃该消息，但允许两小时后下一条消息通过。因此，如果问题仍然存在，管理员直到 9:30 才能收到相应的信息。

两种解决方案哪一种更适合取决于具体要求。例如，对于电子邮件通知来说，管理员是否全天候接收邮件但只在办公室里阅读邮件几乎没有区别。在这种情况下，在邮件客户端中为 Nagios 消息设置过滤器，按倒序时间排序（最新的邮件排在前面）是有意义的。当问题被宣布时，管理员也可以在屏幕前快速查看 Web 界面，以检查是否有任何变化。

如果到目前为止描述的微分方法不足以解决问题，那么在 12.5 升级管理中描述的升级管理可能有所帮助。

* * *

^([123]) 查看 [`www.nagios.org/developerinfo/externalcommands/`](http://www.nagios.org/developerinfo/externalcommands/).

# 12.4 外部通知程序

哪些外部程序传递消息由联系定义确定。

这里又有两个参数用于定义要使用的命令，一个用于服务，一个用于主机：

两个**`*_notification_commands`**都允许逗号分隔的列表，因此可以同时指定多个命令。然后，消息会以定义的所有方式同时发送给所有接收者。命令对象的名称描述了这些方式：通过电子邮件和通过短信。

为了获得更好的概览，相应的命令不是与文件**`checkcommands.cfg`**中的插件命令一起定义，而是在一个单独的对象文件**`misccommands.cfg`**中定义。Nagios 像加载任何其他具有对象定义的文件一样加载这些文件，这就是为什么可以为它们选择任何名称。

其他参数，**`email`**、**`pager`**、**`address1`**和**`address2`**，可以被视为变量。传递命令通过宏访问这些变量中设置的值。对于联系定义来说，**`pager`**是否包含用于短信发送的电话号码或指向电子邮件短信网关的电子邮件地址无关紧要。决定性因素是值与引用此变量的相应命令相匹配。

## 12.4.1 通过电子邮件通知

在定义**`notify-by-email`**命令时，指定一个名称和要执行的命令行，就像其他每个命令对象一样。只是它的长度不寻常，这就是为什么在这个打印版本中不得不多次换行：

打印出的命令对象来自包含的示例文件**`misccommands.cfg-sample`**。其中定义的命令行在原则上可以简化为以下模式：

通过宏的帮助，**`printf`**生成消息文本，该文本通过管道传递给邮件程序。具体由哪些宏引起的情况在表 12-1 中揭示。^([124]) 使用此方法，上述长行生成类似以下的消息：

表 12-1. 在通过电子邮件通知和主机通过电子邮件通知中使用的宏

| 宏 | 描述 |
| --- | --- |
| **`$CONTACTEMAIL$`** | 联系定义中**`email`**参数的值 |
| **`$LONGDATETIME$`** | 数据指定的长格式，例如，**`Fri Jan 14 16:22:47 CET 2005`** |
| **`$HOSTALIAS$`** | 主机定义中**`alias`**参数的值 |
| **`$HOSTADDRESS$`** | 主机定义中**`address`**参数的值 |
| **`$HOSTNAME$`** | 主机定义中**`host_name`**参数的值 |
| **`$HOSTOUTPUT$`** | 上次主机检查的文本输出 |
| **`$HOSTSTATE$`** | 主机状态：**`UP`**、**`DOWN`**或**`UNREACHABLE`** |
| **`$NOTIFICATIONTYPE$`** | 通知类型：**`PROBLEM`**（CRITICAL、WARNING 或 UNKNOWN），**`RECOVERY`**（错误状态后的 OK），**`ACKNOWLEDGEMENT`**（管理员已确认错误状态；见 16.1.2 对问题的负责，第 332 页），**`FLAPPINGSTART`**或**`FLAPPINGSTOP`** |
| **`$SERVICEDESC$`** | 服务定义中**`description`**参数的值 |
| **`$SERVICEOUTPUT$`** | 上次服务检查的文本输出 |
| **`$SERVICESTATE$`** | 服务状态：**`OK`**、**`WARNING`**、**`CRITICAL`**、**`UNKNOWN`** |

对于命令**`host-notify-by-email`**，命令行看起来类似，但现在使用的是与主机相关的宏：

它生成以下内容的电子邮件：

## 12.4.2 通过短信通知

虽然发送电子邮件所需的基础设施通常总是可用的，但发送短信的程序，如**`yaps`**，^([125]) **`smssend`**，^([126]) 或**`smsclient`**^([127**)，通常需要额外安装。**`yaps`**和**`smsclient`**需要本地调制解调器或 ISDN 卡，并直接与手机服务提供商（例如，T-Mobile）“电话”联系，**`smssend`**则建立与手机服务提供商的互联网服务器的连接，并通过此路径发送短信。使用**`yaps`**和**`smsclient`**，您还可以使用一个邮件网关，该网关从电子邮件生成并发送短信。

无论你选择哪种方法，都应该意识到在发送消息时可能存在的干扰：Nagios 服务器与互联网之间的连接要经过许多主机、路由器和防火墙。特别是如果 Nagios 本身正在监控涉及的某台计算机，事情就变得有趣了：如果这台机器宕机，那么通过**`smssend`**发送的消息将不再有效。同样适用于电子邮件-SMS 网关。无论是涉及自制的结构，使用**`yaps`**或**`smsclient`**，每个都代表自己的 SMS 网关，还是具有复杂统一消息解决方案的电信安装，如果实际发送 SMS 的节点距离 Nagios 服务器很远（例如，因为你有一个具有多个位置的联网电话系统），由于连接中断，消息无法到达目标的可能性会增加。

因此，最佳解决方案是在 Nagios 服务器本身上安装**`smsclient`**或**`yaps`**，并直接提供电话访问。在较大的、联网的电话系统中，你也可以考虑为电话访问提供从电话系统来的专用、直接线路。这里是否是 ISDN 或模拟只是所用技术的区别。

为了表示这里提到的程序，我们将更详细地研究**`smsclient`**，它可以非常简单地配置，并且在其主页上有一个活跃的社区。你还可以在那里找到一个链接到邮件列表，其成员会乐意在你有问题时提供帮助。

### 设置**`smsclient`**

虽然 Debian 有自己的预编译**`smsclient`**软件包，但对于 SuSE 和其他发行版，你必须自己编译软件。出于历史原因，程序本身被称为**`sms_client`**；在**`man sms_client`**中提供了一个简短的子文本。

从源代码安装遵循常规流程：

这里值得提的一点是，“自制”的**`configure`**过程无需**`autoconf`**和**`automake`**。

表 12-2 中列出的配置文件现在位于目录**`/etc/sms`**；Debian 软件包将其安装到**`/etc/smsclient`**。

表 12-2. `smsclients`配置文件

| 文件 | 描述 |
| --- | --- |
| **`sms_addressbook`** | 别名和组的定义 |
| **`sms_config`** | 主要配置文件 |
| **`sms_daemons`** | **`smsclient`**守护进程模式的配置文件，其中可以通过专有协议访问。不是必需的。 |
| **`sms_modem`** | 调制解调器配置 |
| **`sms_services`** | 支持的提供商 |

文件 **`sms_services`** 列出了支持的提供商，并同时将它们分配给使用的协议。精确的拨打电话号码由目录 **`services`**（如果你自己编译）或 **`/usr/lib/smsclient/services`**（对于 Debian）中的相应服务文件指定。如有疑问，你应该请求你自己的移动蜂窝提供商的电话号码。邮件列表在这里也可能有所帮助。

在文件 **`sms_config`** 中，你设置了一个默认的提供商，程序在未指定特定提供商时将使用它进行调用：

目前文件 **`sms_modem`** 中缺少的只是调制解调器的配置。然而，原则上，任何在 Linux 下工作的调制解调器都可以使用。以下示例中我们使用的是带有 Isdn4Linux-HiSax 驱动程序的 ISDN 卡：

这里使用 **`/dev/ttyI0`** 作为设备；对于 **`MDM_init_command`**，使用你自己的 MSN。这尤其适用于私人分支交换，它只允许在正确指定你自己的 MSN 时建立连接。

由于 Isdn4Linux 不识别音调或脉冲拨号，我们只使用 **`D`** 而不是通常的 **`DT`** 作为 **`MDM_dial_command`**。如果 ISDN 连接需要作为电话交换的一部分的外部线路，你应该输入相应的前缀；否则，此字符串保持为空。

**`smsclient`** 需要用于所使用的设备和日志文件 **`/var/log/smsclient.log`** 的写权限：

为了测试这个，你现在应该发送——最好是作为用户 **`nagios`**（稍后将会使用 **`smsclient`**）——一条短信到你的手机（这里可以通过电话号码 **`01604711`** 接达）：

### 使 Nagios 与 **`smsclient`** 协同工作

如果在 **`smsclient`** 中缺少第二个参数，即包含消息文本的参数，程序将从中读取 STDIN：

基于命令 **`notify-by-email`**，如第 276 页所述，我们在此将使用第二个变体来定义 **`notify-by-sms`** 命令：

如同往常，整个 **`command_line`** 都写在一行上。Nagios 通过宏 **`$CONTACTPAGER$`** 获取电话号码（或别名），该宏从联系定义中读取 **`pager`** 参数的值。由于这里的短信可能不超过 150 个字符，我们将与电子邮件消息相比大大缩短信息。为了安全起见（你永远不知道插件输出（**`$SERVICEOUTPUT$`**）的实际长度），**`printf`** 格式说明符 **`.150`**（而不是 **`%b`**）在 150 个字符后截断文本。尽管我们通过 **`\n`** 在消息中省略了换行符，但由于其有限的显示，短信永远不会格式化得很好。因此 **`notify-by-sms`** 生成以下类型的一行消息：

* * *

^([124]) 所有宏的完整列表包含在原始文档中，可在[`localhost/nagios/docs/macros.html`](http://localhost/nagios/docs/macros.html)（通常在文件系统中的**`/usr/local/nagios/share/docs/macros.html`**下找到）找到。对于 Nagios 3.0，相应的文件**`macrolist.html`**也可以在这个目录中找到。

^([125]) 除了**`/usr/bin/mail`**客户端之外，还需要一个本地邮件服务器。

^([126]) **`[`www.sta.to/ftp/yaps/`](http://www.sta.to/ftp/yaps/)`**

^([127]) **`[`zekiller.skytech.org/smssend_menu_en.html`](http://zekiller.skytech.org/smssend_menu_en.html)`**

^([128]) **`[`www.smsclient.org/`](http://www.smsclient.org/)`**

# 12.5 升级管理

当重要组件失败且负责的管理员在指定时间内找不到解决方案时，尽管服务水平协议或其他合同要求 IT 部门这样做，^([129]) Nagios 升级通知的能力允许在组织层面上至少解决冲突。它可以用来提供多级支持。例如，Nagios 首先通知*第一级支持*（通常是*帮助台*）。如果问题在一天后仍然存在，那么就会通知*第二级支持*，依此类推。

Nagios 在这里也对主机和服务相关的升级阶段进行了区分。本质上，它们的功能是相同的。

在升级过程中，Nagios 不按时间单位计算，而是按已发送的消息数量计算。在以下示例中，系统应每 120 分钟报告**`linux01`**上**`Database`**服务的错误状态，^([130])并且全天候：

相应的消息总是发送到联系人组，因此没有升级时，就是发送到**`admins`**。

![Nagios 根据已发送的消息数量进行升级](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223824.png.jpg)

图 12-3. Nagios 根据已发送的消息数量进行升级

在第四次通知之后，Nagios 应启动升级的第一阶段（如图 12-3 所示），除了**`admins`**之外，还应通知**`second-level`**联系人组。第八条消息触发第二级，此时 Nagios 会通知**`contact_group third-level`**。

如图 12-3 所示，升级确实可以重叠。从图形中还可以看出，在服务对象中定义的联系人组仅在 Nagios 不进行升级时适用。一旦启动升级阶段，系统就会使默认联系人组失效。

如果原始联系人组——这里为**`admins`**——在第一级升级中也应收到消息，那么必须在升级定义中额外指定。如果有多个级别重叠，Nagios 将通知所有涉及的组。在图 12-3 中，第 8 到第 10 条消息相应地发送给**`admins`**和**`second-level`**以及**`third-level`**，而只有后者接收消息编号 11 和 12。从消息编号 13 开始，Nagios 只通知联系人组**`admins`**，因为此处不再定义升级。

后者通过单独的**`serviceescalation`**（用于服务）和**`hostescalation`**对象（用于计算机）来实现。对于服务升级对象，Nagios 除了服务详情（由**`service_description`**和**`host_name`**参数组成）和负责的联系人组名称之外，还要求定义异常情况开始和结束的时间：

在此处定义的升级级别从所需的第 4 条消息开始，并以第 10 条消息结束。如果**`last_notification`**被赋予值**`0`**，则升级仅在服务返回到 OK 状态时才结束。

此外，您还必须指定服务升级的**`notification_interval`**参数：这改变了通知间隔（根据服务定义之前为**`120`**）到**`60`**时间单位。此参数对于主机升级也是强制性的。**`hostescalation`**对象定义的唯一区别是，除了主机名称外，您还可以指定一个或多个主机组（当然，**`service_description`**参数也被删除）。

第二个升级步骤以相同的方式定义：

如果存在具有不同**`notification_intervals`**的重叠升级，Nagios 将选择每种情况下定义的最小时间单位。因此，Nagios 以 60 分钟的间隔发送消息 8 到 10，以 90 分钟的间隔发送数字 11 和 12，然后再次应用原始的 120 分钟间隔。

使用**`escalation_period`**和**`escalation_options`**，有另外两个专门用于升级的设置参数。这两个参数与主机或服务定义中的**`notification_period`**和**`notification_options`**具有相同的功能，但它们仅适用于升级情况。

与**`notification_interval`**相反，**`escalation_period`** *并不替代* **`notification_period`**，而是作为其补充。从**`notification_period`**和**`escalation_period`**的交集，可以推导出实际的时间段。假设**`notification_period`**指的是早上 7:00 到下午 5:00 的时间，而**`escalation_period`**指的是上午 8:00 到下午 8:00 的时间段。那么 Nagios 将只在上午 8:00 到下午 5:00 的升级级别发送消息。你必须始终记住，只有已经发送的消息数量决定了是否存在升级级别。**`escalation_period`**和**`escalation_options`**仅作为额外的过滤器起作用。

在使用这两个参数之前，你应该仔细考虑你想通过它们实现什么。在某些情况下，将升级限制在特定时间段可能会导致它完全被省略。例如，如果你将它们限制在工作日，这意味着如果**`Database`**服务在周末失败，Nagios 只会在周一早上通知联系人组**`admins`**：周末系统已经发送了超过 12 条消息，因此它甚至不再使用其升级机制。如果通过**`escalation_period`**有时间限制，你应该将**`last_notification`**设置为**`0`**，以确保升级确实发生。

每次错误都会在某个时间点之后被恢复。一个智能机制确保 Nagios 只通知那些负责的联系人，这些联系人根据活跃的升级级别，并且也收到了要发送的最后一项通知。

* * *

^([129]) 这些也可以是内部的专业部门。

^([130]) 严格来说，每 120 个时间单位，默认时间单位是 60 秒。

# 12.6 主机和服务的依赖关系处理

如果你通过 NRPE（见第十章）使用本地插件（见第七章所示，该主机上本地安装的插件通过 NRPE 监控硬盘空间（**`Disks`**服务，见 10.5.3 优化配置)、登录用户数（**`Users`**服务）和系统负载（**`Load`**服务）。如果 NRPE 现在失败，Nagios 将宣布所有三个服务的 CRITICAL 状态，尽管它们的实际状态是未知的，而真正的问题是“NRPE 守护进程”。

为了解决这个矛盾，NRPE 作为一个独立的服务进行监控，并在**`servicedependency`**对象中描述了依赖关系。

![上述三个服务依赖于 NRPE](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223826.png)

图 12-4. 上述三个服务依赖于 NRPE

为了定义 NRPE 的附加服务检查，我们利用调用**`check_nrpe`**插件（见第十章)（几乎）没有任何参数的可能性。它将简单地返回正在使用的 NRPE 守护进程的版本：

在第 222 页 10.5 Nagios 配置中定义的命令**`check_nrpe`**需要额外的参数，因此不能用于我们的目的。因此，我们设置了一个新的命令对象**`test_nrpe`**，它专门测试 NRPE：

使用这种方式，现在可以定义一个**`NRPE`**服务：

NRPE 的三个本地服务的依赖关系由以下**`servicedependency`**对象描述。

**`host_name`**和**`service_description`**定义了主服务，其故障会导致在**`dependent_host_name`**指定的计算机上名为**`dependent_service_description`**的服务失败。所有四个参数都可以有多个条目，用逗号分隔。然而，你应该记住，每个从属服务都依赖于每个可能的主服务。

剩余的参数影响服务检查和通知：**`notification_failure_criteria`**指定对于主服务的哪些状态，涉及从属服务（例如**`Disks`**）错误的通告不应出现。可能的值是**`u`**（未知），**`w`**（警告），**`c`**（严重），**`p`**（挂起，即计划进行初始检查但尚未执行），**`o`**（正常）和**`n`**（无）。

**`u`**, **`c`** 在上述示例中意味着，如果主服务处于 CRITICAL 或 UNKNOWN 状态，Nagios 不会通知负责 "错误" 的管理员关于 **`Disks`**, **`Users`**, 和 **`Load`** 在 **`linux01`** 上的服务。如果用 **`o`** 表示 OK，逻辑可以反转：这里在没有错误的情况下没有消息，只要主服务处于 OK 状态。相应地，**`n`** 表示无论主服务状态如何，Nagios 都会提供通知。

**`execution_failure_criteria`** 参数根据主服务状态控制测试。与 **`notification_failure_criteria`** 一样，**`u`**（未知），**`w`**（警告），**`c`**（严重），**`p`**（挂起），**`o`**（正常），和 **`n`**（无），都指的是应该没有检查的主服务状态。在示例中，指定了 **`n`**，因此即使 NRPE 失败，Nagios 也会测试 **`Disks`**, **`Users`**, 和 **`Load`**。

因此，Nagios 抑制消息，但由于它仍然在依赖服务上执行服务检查，Web 界面始终显示这些服务的当前状态。

**`notification_failure_criteria`** 的详细信息与被动测试的 *Freshness 机制* 相互作用（参见第 295 页的 13.4 对被动检查过时信息的响应）。如果服务定义中使用了 **`check_freshness`**，并且 Nagios 认为最近确定的状态已过时，它将根据服务依赖关系执行主动测试，即使它应该抑制它们。

### 继承

Nagios 不自动继承依赖关系。一个例子在 图 12-5 中显示：在防火墙的内部，系统应通过 SNMP 查询各种资源。出于安全原因，测试是通过 NRPE 间接执行的，也就是说，Nagios 服务器运行安装在文件内部主机上的 SNMP 插件，间接通过 NRPE。

![服务的多级依赖](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223828.png)

图 12-5. 服务的多级依赖

以下两个 **`servicedependency`** 对象描述了主机 **`linux04`** 上 **`SNMP`**（主服务）和 **`Disks`**（依赖服务）之间的依赖关系，以及 **`linux01`** 上的 **`NRPE`** 服务和 **`linux04`** 上的 **`SNMP`** 服务之间的依赖关系：

如果 **`linux01`** 上的 NRPE 守护进程失败，Nagios 只会识别 **`NRPE`** 和 **`SNMP`** 之间的定义依赖关系，但不会识别 **`NRPE`** 和 **`Disks`** 之间的隐式依赖关系。为了考虑这些依赖关系，在 **`Disks`** 和 **`SNMP`** 之间的服务依赖关系定义中插入参数 **`inherits_parent`**。

通过这种方式，Nagios 检查主服务本身（此处为 **`SNMP`**）是否依赖于另一个服务，这得益于相应的 **`servicedependency`**。如果 **`linux01`** 上的 **`NRPE`** 服务失败（CRITICAL 状态），Nagios 将省略对 **`linux04`** 上的 **`Disks`** 的检查，归功于 **`execution_failure_criteria c, u`**，并且也不会发送任何关于最近检测到的 **`Disks`** 状态的通知。

### 其他应用案例

如果大量依赖单一服务，服务之间的依赖定义尤其有用，这样实际问题可能会在错误消息的洪流中消失。除了与 NRPE 结合使用之外，这也适用于 Nagios 服务器无法直接测试的所有服务，并且它必须使用工具（NRPE、SNMP 或甚至 **`NSCLIENT`** 用于 Windows，见 20.2.1 NSClient）。如果无法建立到实用程序的简单连接并且无法查询常量值（版本号、系统名称），您仍然可以使用通用插件来访问相应的端口。

使用服务依赖性的另一个例子是依赖于数据库的应用程序：如果一个具有动态网页的 Web 应用程序（其基础数据库可能位于网络中的另一个主机上）无法工作，那么该 Web 应用程序将失败。数据库服务与动态 Web 应用程序之间精确定义的依赖性也确保了管理员会被告知实际原因。

### Nagios 3.0 的附加功能

Nagios 3.0 包含两项创新：一方面，参数 **`dependency_period`** 现在允许对依赖性施加时间限制。默认值为 **`7x24h`**，即全天候。

另一方面，Nagios 3.0 使得在同一主机上定义服务和依赖服务的依赖性变得更加容易。如果 **`dependent_host_name`** 与 **`host_name`** 相同，则可以省略在前面示例中使用的指定。这种所谓的 *同一主机依赖性* 的一个例子在 H.1.6 依赖描述 页 683 中描述。

## 12.6.2 仅在异常情况下：主机依赖性

主机依赖性在原则上与服务依赖性完全相同；**`hostdependency`** 对象也能够抑制消息。

然而，在细节上存在一些细微的差异。只有显式配置的常规主机检查可以被抑制，其中检查间隔被定义为与服务相同。然而，这种类型的主机检查应仅在特殊情况下使用，因为它可能会对 Nagios 的性能产生重大影响。通常，Nagios 会自行决定何时执行主机检查（参见第 92 页的 4.1 考虑网络拓扑）。

在几乎所有情况下，主机定义中的**`parents`**参数在描述主机之间的依赖关系方面表现得更好。只要 Nagios 可以直接测试单个主机，系统就能更好地区分 DOWN 和 UNREACHABLE（参见第 92 页的 4.1 考虑网络拓扑）。如果您不希望对特定主机进行任何通知，这取决于网络拓扑，那么您只应收到 DOWN 的通知，而不是 UNREACHABLE 的通知。

只有当 Nagios 无法再区分 DOWN 和 UNREACHABLE 时，才应使用主机依赖。这通常是在间接检查（例如，在 10.5.3 优化配置中显示的图中）执行主机检查时的情况。

# 第十三章. 使用外部命令文件进行被动测试

除了主动服务和主机检查之外，Nagios 还利用被动测试（以及这两种类型测试的组合）。虽然系统本身定义了主动检查执行的时间，并随后启动它们，但在被动模式下，Nagios 仅处理传入的结果。

为了实现这一点，需要一个接口，允许将外部测试结果传递给 Nagios，以及执行检查并通过接口提供结果的命令。通常，远程主机通过*Nagios 服务检查接受器*（NSCA）发送由 shell 脚本确定的测试结果，如下一章（第十四章）中所述，到 Nagios 服务器。

被动检查在分布式监控中尤其有用，其中非中心化的 Nagios 服务器将所有结果发送到中央 Nagios 实例。这一主题在第十五章中有详细讨论。它们还用于处理异步事件，这些事件的时间 Nagios 无法自行定义。一个例子是备份脚本在完成数据备份后向 Nagios 发送结果（OK 或 CRITICAL），另一个例子是处理 SNMP 陷阱（参见 14.6 应用示例 II：处理 SNMP 陷阱）。

# 13.1 外部命令的接口

外部命令的接口，在 Nagios 术语中称为*外部命令文件*，由 Nagios **`var`**目录下的子目录**`rw`**中的命名管道（FIFO）组成。131]

在**`ls`**输出中用**`p`**标记的管道，在安装过程中正确设置了**`make install-commandmode`**命令。出于安全考虑，确保只有组**`nagcmd`**可以读取和写入管道是至关重要的。任何有权访问这里的人都可以通过命令远程控制 Nagios，并且如果他们想的话，可以完全关闭它。

Nagios 从外部命令文件接受的命令具有以下形式：

正如方括号中的时间戳所示，Nagios 期望的是以纪元秒为单位的当前时间，即自 1970 年 1 月 1 日以来在 UTC 时区中经过的秒数。其后跟一个空格，然后是一个命令，后面跟着匹配数量的参数，由分号分隔。

该接口广泛使用这种机制，允许用户通过鼠标点击进行各种设置。在线文档提供了所有可能命令的详细描述。132]。每个命令的示例脚本都可以在那里找到，可以复制到文件中并通过剪切粘贴使用，之后进行一些路径调整。

在本章中，我们将仅限于两种处理命令，即计算机将被动检查的结果传递给 Nagios 服务器的命令，**`PROCESS_SERVICE_CHECK_RESULT`**和**`PROCESS_HOST_CHECK_RESULT`**。

出于安全考虑，必须在主配置文件**`nagios.cfg`**中使用指令**`check_external_commands=1`**显式地打开外部命令的处理：

**`command_check_interval`**确定 Nagios 每隔几秒钟检查一次现有命令的接口。**`−1`**表示“尽可能频繁”。**`command_file`**指定命名管道的路径。

* * *

^([131]) 命名管道是一个进程可以写入数据的缓冲区，然后另一个进程可以读取这些数据。最先写入的数据也是最先被读取的：*先进先出*（FIFO）。由于这涉及到主内存中的空间，命名管道不需要在硬盘上占用任何空间。

^([132]) [`www.nagios.org/developerinfo/externalcommands/`](http://www.nagios.org/developerinfo/externalcommands/)

# 13.2 被动服务检查

为了使 Nagios 能够通过接口接受被动服务检查，必须在全局配置和相应的服务定义中明确允许。在**`nagios.cfg`**中的对应条目是

在服务定义中，你可以选择是否要在被动检查的同时执行主动检查。当然，只有在 Nagios 能够自己查询信息的情况下，才能执行主动检查。以下示例允许被动检查并停止所有主动检查：

通常会对*新鲜度检查*（见 13.4 对被动检查过时信息的反应，第 295 页）进行例外处理——在这里，Nagios 使用在**`check_command`**中定义的命令。要完全禁止主动检查，将**`check_period`**参数设置为**`none`**。在这种情况下，检查命令不起作用，因此你可以在这里输入一个虚拟检查，例如（当然，像所有其他命令一样，必须定义）。

在要被动测试的计算机（在这个例子中，**`linux01`**）上，你必须通过 NSCA（见第十四章）确保它通过外部命令接口联系 Nagios 服务器。在那里，它以下一行形式写入被动服务检查的命令：

时间戳可以在 shell 脚本中创建，例如使用**`date`**：

一个简单的脚本，可以将 Nagios 服务器上被动服务检查的结果传递给安装在该服务器上的 Nagios，可能看起来像这样：

当它运行时，它期望参数以正确的顺序出现：

在主机名和服务名之后，测试状态以数字形式跟随，最后是输出文本。如果服务名包含空格，那么它也应该用引号括起来。

# 13.3 被动主机检查

被动主机检查遵循与被动服务检查相同的原理，只是它们涉及的是计算机而不是服务。要全局允许它们，必须在**`nagios.cfg`**中将**`accept_passive_host_checks`**参数设置为 1：

此外，要被动监控的计算机的主机定义必须允许这种主机检查：

在这个例子中，它同时禁止了主动检查。

通过外部接口发送的命令，该计算机通过该接口提供其测试结果，与已经介绍的服务检查命令的语法只有细微差别：

激活和被动主机检查在一点上有所不同：在被动检查中，Nagios 不再能够区分 DOWN 和 UNREACHABLE（参见第 92 页的 4.1 考虑网络拓扑）。如果你仍然想在发出通知时考虑网络拓扑依赖性，并给出实际已关闭的主机的具体信息，你必须在这种情况下使用主机依赖性（参见第 289 页的 12.6.2 仅在异常情况下：主机依赖性）。

# 13.4 对被动检查过时信息的反应

被动检查的本质在于 Nagios 对提供的信息感到满意。Nagios 无法控制远程主机何时以及以何种间隔提供这些信息。甚至可能发生信息根本未到达的情况。

为了将服务器的“知识状态”分类为过时，Nagios 具有通过*freshness 检查*自行变得活跃的能力。与被动检查一样，freshness 检查必须在全局范围内以及相关的服务主机对象中启用。为此，你需要在文件**`nagios.cfg`**中设置以下全局参数：

**`check_host_freshness`**中的值**`0`**和**`check_service_freshness`**中的值**`1`**确保 Nagios 只为服务执行 freshness 检查，而不是为主机。检查间隔定义了服务器更新其信息的间隔，在这种情况下，每 60 秒更新一次。Nagios 在特定服务或主机的情况下真正变得活跃取决于阈值值，你可以使用**`freshness_threshold`**参数在适当的服务或主机定义中设置此值：^([133])

因此，在这个例子中，Nagios 只有在最后传输的值超过 3600 秒（一小时）时才会执行此服务的 freshness 检查。然后 Nagios 启动在**`check_command`**中定义的命令，即使相应的主机或服务定义中已关闭主动检查，或者甚至在全局范围内也是如此。

如果你定义了示例中提到的命令，即**`service_is_stale`**，以便 Nagios 真正检查服务或主机，那么即使主动检查被关闭，Nagios 也会执行主动测试，但始终仅在被动结果超过阈值值设置的时间更长时。

如果无法进行或不需要主动检查，您可以使用伪测试来确保 Nagios 会明确地显示错误状态，从而引起管理员的注意。否则，Nagios 将始终显示最后接收到的状态。如果这是正常的，那么可能不会注意到当前结果已经有一段时间没有到达。以下伪测试脚本使用**`echo`**提供适当的错误信息，并通过**`exit 2`**提供 CRITICAL 的返回值，以便管理员可以相应地做出反应：

如果您从插件目录中以**`service_is_stale.sh`**启动脚本，Nagios 命令**`service_is_stale`**将被定义为以下内容：

如果**`linux01`**上的**`Disks`**服务的结果超过一小时没有出现，Nagios 将运行脚本**`service_is_stale.sh`**，该脚本始终返回 CRITICAL，无论**`linux01`**最后发送了什么数据。只有当主机通过被动检查向服务器传递新的更积极的结果时，这种 CRITICAL 状态才会结束。

* * *

^([133]) 如果您没有明确指定**`freshness_threshold`**，则硬状态将使用为**`normal_check_interval`**设置的值，如果存在软状态，则**`retry_check_interval`**的值将作为默认值。

# 第十四章. Nagios 服务检查接受者（NSCA）

为了将服务和主机检查通过网络发送到中央 Nagios 服务器，需要一个传输机制。这由**Nagios 服务检查接受者**（NSCA）提供。它由两个组件组成：一个客户端程序**`send_nsca`**，它接受远程主机上的服务或主机检查结果并将它们发送到 Nagios 服务器，以及运行在服务器上的 NSCA 守护进程**`nsca`**，它接收来自客户端的数据，为此外部命令文件接口（参见 13.1 外部命令接口）。

Nagios 服务检查接受者最初开发是为了实现分布式监控，其中分散的 Nagios 服务器可以将它们的检测结果发送到中央 Nagios 服务器（参见第十五章分布式监控，第 317 页）。原则上，**`send_nsca`**发送给 Nagios 服务器的数据可以来自您喜欢的任何应用程序。

在网络安全方面，通过网络发送命令到中央 Nagios 实例并非微不足道，因为可以使用外部命令文件完全关闭 Nagios。这就是为什么 NSCA 以加密形式发送数据，客户端必须拥有正确的密钥才能访问接口。这阻止了任意网络参与者能够运行任何命令在 Nagios 服务器上。

![NSCA 的功能](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223830.png)

图 14-1. NSCA 的功能

# 14.1 安装

NSCA 版本 2.7.2，在本书印刷时，是在 2007 年春季发布的；因此，你使用的发行版很可能包含一个当前包。然而，源代码^([134])编译起来相当简单。作为先决条件，你需要安装库**`libmcrypt`**以及相关的头文件^([135))，否则无法使用集成加密。

在解压后的源代码目录中，你应该运行包含的**`configure`**脚本，指定 Nagios 配置和**`var`**目录：

最后它会显示输出，显示 NSCA 用户默认启动时的权限，如果没有在配置中指定其他权限。通常 NSCA 守护进程在 TCP 端口 5667 上等待。

最后执行**`make all`**编译两个程序**`nsca`**和**`send_nsca`**。它们现在位于子目录**`src`**中，需要手动复制到合适的目录：

**`nsca`**被复制到 Nagios 服务器，最好复制到目录**`/usr/local/ sbin`**。**`send_nsca`**应该位于将测试结果发送到 Nagios 服务器的远程主机上。如果这台计算机有不同的操作系统版本或平台，那么运行在那里的客户端可能需要重新编译。这两个程序各自都需要自己的配置文件，最好存储在目录**`/etc/nagios`**中。

* * *

^([134]) [`www.nagios.org/download/`](http://www.nagios.org/download/)

^([135]) 相应的二进制包通常在其名称中包含**`-dev`**或**`-devel`**。

# 14.2 配置 Nagios 服务器

## 14.2.1 配置文件**`nsca.cfg`**

为了 NSCA 能够工作，Nagios 服务器上的外部命令文件接口必须在配置文件**`/etc/nagios/nagios.cfg`**中激活（13.1 外部命令接口, 第 292 页）并且相应的数据在 NSCA 配置文件**`nsca.cfg`**中输入。

参数 **`server_port`**、**`server_address`**、**`allowed_hosts`**、**`nsca_user`** 和 **`nsca_group`** 仅在 **`nsca`** 以守护进程方式启动时生效。如果以 inet 守护进程启动，则其配置文件中设置的值应用于 NSCA 服务器地址和 NSCA 监听的端口，允许访问该接口的主机的 IP 地址，以及运行 Service Check Acceptor 的用户和组权限。

**`debug`** 参数使得查找错误更加容易，但通常应关闭（值 **`0`**）。如果设置为 **`1`**，NSCA 将将调试信息写入 syslog。

命名管道由条目 **`command_file`** 定义。如果你指定了替代输出文件，使用 **`alternate_dump_file`**，则在指定的命名管道不存在时，它作为后备。在版本 2.0 之前，Nagios 每次关闭时都会删除管道，但这种情况不应再发生。

如果设置为 **`1`**，**`aggregate_writes`** 确保 NSCA 只收集一次所有传入的命令，然后将这些命令作为块传递给接口。如果此位置的值是 **`0`**，则 NSCA 会立即将每个传入的命令发送到外部命令文件。

**`append_to_file`** 可以是值 **`0`**（以写入模式打开外部命令文件）或 **`1`**（以追加模式打开），并且应始终设置为 **`0`**。^([137])

NSCA 会丢弃超过 **`max_packet_age`** 秒的客户端消息，以避免重放攻击。此值不应超过 900 秒（15 分钟），并且应尽可能小。

最后两个参数涉及通信的加密。**`password`** 包含实际密钥，对于客户端来说是相同的，并且必须在客户端的配置中输入（参见第 304 页的 14.3 客户端配置）。因为密钥以明文形式写入文件，所以 **`nsca.cfg`** 应仅对运行 NSCA 的用户可读，在我们的例子中是 **`nagios:`**。

最后，**`decryption_method`** 定义了加密算法。默认值为 **`1`**（XOR），与 **`0`**（无加密）几乎一样不安全。**`10`** 代表 LOKI97，被认为是安全的。所有可能的算法列表包含在提供的配置文件中，其中包含许多旧算法和一些较新的算法，如 DES（**`2`**）、Triple-DES（**`3`**）、Blowfish（**`8`**）和 Rijndael（AES）。

## 14.2.2 配置 inet 守护进程

如果你想使用 inet 守护进程启动 **`nsca`**，则需要在文件 **`/etc/services:`** 中添加以下条目。

### **`xinetd`** 配置

如果使用较新的 **`xinetd`**，则将在 **`/etc/xinetd.d`** 目录中创建 **`nagios-nsca`** 文件，内容如下：

对于用户和组，以它们的权限运行 NSCA，以及 NSCA 守护进程 **`nsca`**（参数 **`server`**) 和相应的配置文件路径，以粗体打印的值，如有必要，调整到您自己的环境。行 **`only_from`**，作为 **`nsca.cfg`** 参数 **`allowed_hosts`** 的等效，接受来自所有 IP 地址的空间分隔值，这些地址可以用来调用 NSCA。包含 NSCA 作为完整包并默认安装 **`xinetd`** 的发行版，包括一个可用的 **`xinetd`** 配置文件，您只需调整最后一个参数。

为了使新的配置生效，需要使用 **`reload`** 参数运行 **`xinetd`** 初始化脚本：

### inetd 配置

如果运行标准 **`inetd`** 命令，配置文件 **`/etc/inetd.conf:`** 中将添加以下行（为了打印版本而进行了换行）：

如果您想省略 TCP 包装器 **`tcpd`**，只需省略字符串 **`/usr/sbin/tcpd`**。在这种情况下，您还必须明确指定 NSCA 启动时使用的用户（**`nagios`**)、二进制的完整路径 **`nsca`** 和配置文件的绝对路径。以便网络守护进程能够考虑到修改，其配置必须重新加载：

* * *

^([136]) 如果要为 **`allowed_hosts`** 定义多个 IP 地址，它们之间用逗号分隔。

^([137]) 仅当外部命令文件用于调试目的替换为简单文件时，追加模式才有意义。

^([138]) [`en.wikipedia.org/wiki/L0KI97`](http://en.wikipedia.org/wiki/L0KI97)

^([139]) Rijndael-128: **`14`**; Rijndael-192: **`15`**; Rijndael-256: **`16`**

# 14.3 客户端配置

客户端侧的配置文件 **`send_nsca.cfg`** 必须包含与 Nagios 服务器上的文件相同的加密参数：

由于密钥也以纯文本形式写入此处，因此它不应被任何用户读取。因此，最好在客户端创建一个用户 **`nagios`** 和一个组 **`nagios`**：

您现在应该保护文件 **`send_nsca.cfg`**，以确保只有用户 **`nagios`** 可以读取它，并确保使用 SUID 机制，程序 **`send_nsca`** 总是以此用户的用户 ID 运行。如果您现在授予组 **`nagios`** 执行权限，只有其成员可以执行 NSCA 客户端程序：

# 14.4 将测试结果发送到服务器

客户端程序 **`send_nsca`** 从标准输入读取主机或服务检查的详细信息，管理员必须按以下格式格式化：^([140])

**`send_nsca`**将此发送到 Nagios 服务器。第一行描述了服务检查的格式，第二行描述了主机检查的格式。占位符**``*`返回值`*``**被替换为确定的状态，即**`0`**表示 OK，**`1`**表示 WARNING，**`2`**表示 CRITICAL，**`3`**表示 UNKNOWN。**``*`输出`*``**指的是一行文本，是插件为管理员提供的支持类型。作为分隔符，使用制表符（**`\t`**）。

为了使这个命令能够被外部命令理解，NSCA 守护进程首先在时间戳和匹配的命令（**`PROCESS_SERVICE_CHECK_RESULT`** 或 **`PROCESS.HOST_CHECK_RESULT`**）前加上前缀。这就是为什么只有这两个命令可以使用 NSCA 发送。

**`send_nsca`**本身有以下选项：

**`-H`** **``*`地址`*``**

这是 NSCA 将要联系的目标 Nagios 服务器的计算机名或 IP 地址。

**`-d`** **``*`分隔符`*``**

这是输入的分隔符；默认为制表符。以下示例页面使用分号作为*分隔符*。

**`-c`** **``*`配置文件路径`*``**

此参数指定配置文件**`send_nsca.cfg`**的路径。由于没有路径被编译到客户端中，**`send_nsca`**默认期望在当前目录中找到该文件。因此，使用此选项指定绝对路径是有意义的。

**`-p`** **``*`端口`*``**

这定义了一个替代端口，如果默认的 TCP 端口 5667 没有被使用。

**`-to`** **``*`超时`*``**

在**``*`超时`*``**秒（默认为**`10`**）后，如果未建立连接，**`send_nsca`**将终止连接尝试到 NSCA 守护进程。

通过以下简单的测试脚本，可以测试 NSCA 的功能。选择一个状态不是未知（例如，OK）的服务作为测试对象，在这个例子中，是主机**`linux0l:`**上的**`nmbd`**。

脚本将其从 Nagios 的角度看，置于未知状态。运行之后，你应该发现传输是否成功：

一旦 Nagios 处理了这个命令，并且你在浏览器中重新加载了页面，Web 界面就会显示所选服务的未知状态。在下一个活跃的检查之后，之前的状态将会恢复。

由于使用**`send_nsca`**发送 Nagios 检查结果非常简单，因此保护 NSCA 不被滥用至关重要，正如已经展示的那样。在客户端，你应该限制对客户端程序**`send_nsca`**及其配置文件的访问，并确保你有安全的加密，在服务器上明确定义允许的发送者和 IP 地址。

* * *

^([140]) 通常你必须确保你自己编写的测试脚本产生正确的输出；如果你使用 Nagios 插件，你必须相应地重新格式化它们的输出。由于后者可以直接通过 NRPE 运行得更好，这应该成为规则的例外。

# 14.5 应用示例 I：集成 syslog 和 Nagios

Linux 和 Unix 系统通常通过 syslog 记录系统相关的事件。迟早你可能会希望 Nagios 也通知管理员重要的 syslog 事件。为此，你需要被动服务检查、NSCA 用于将结果传输到 Nagios 服务器，以及过滤单个块条目的方法。

如果你使用的是 **`syslog-ng`**^([141]) 而不是标准的 BSD syslog，你可以利用其设置过滤器和使用模板格式化输出的能力。使用 NSCA 可以弥补程序本身无法以加密形式传输数据的事实。

除了与 Nagios 的连接外，还有评估日志文件的程序来补充，例如 **`logcheck`**^([142])，它几乎包含在每一个 Linux 发行版中，但它并不能取代它们。这是因为 Nagios 可以为每个事件发送单独的电子邮件，但不能像 **`logcheck`** 那样发送事件摘要（通常每小时一次）。此外，Web 界面总是显示每个情况下的最后事件。

## 14.5.1 为使用 Nagios 准备 **`syslog-ng`**

除了源代码外，**`syslog-ng`** 的主页^([143]) 还提供了一份详细的手册，因此我们在此仅讨论基本原理。该软件区分了 **`source`**、**`filter`** 和 **`destination`**。所有三个对象可以以任何形式组合；它们在配置文件 **`/etc/syslog-ng/syslog-ng.conf:`** 中定义。

此示例同时定义了三个源：**`unix-stream`** 从套接字 **`/dev/log`** 读取，这是大多数程序将消息发送到 syslog 的方式。**`internal`** 是 **`syslog-ng`** 提供内部消息的源名称，以及从文件 **`/proc/kmsg`** 接收 **`kernel`** 消息。这些消息带有 **`kernel:`** 前缀，以便它们可以与正常日志条目区分开来。

**`destination`** 定义确保所有 syslog 输出都显示在控制台 **`ttyl0`** 上（这可以通过 ![14.5.1 为使用 Nagios 准备 syslog-ng](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223832.png)-![14.5.1 为使用 Nagios 准备 syslog-ng](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223834.png))。

**`filter`** 定义了哪些消息应该到达这个目的地，如果有。在 **`f_messages`** 过滤器的情况下，这是所有匹配类别（**`level`**）**`info`** 的消息，并且 syslog 没有提供带有戳记（**`facility`**；参见 **`man syslog.conf`** 和 **`man 3 syslog`**）**`auth`** 或 **`authpriv`** 的消息。或者 **`syslog-ng`** 可以根据搜索模式进行过滤，使用指令 **`match`** （**``"*`pattern`*"``**），根据记录日志的程序（**`program`**（**``"*`program name`*"``**））和根据源主机（**`host`**（**``"*`hostname`*"``**））。

最后，关键字 **`log`** 将源、过滤器和目的地链接起来。这里可以指定多个配置，因此可以在单个语句中指定多个源和目的地：

如果你在一个 **`log`** 语句中指定了多个过滤器，**`syslog-ng`** 只允许通过匹配所有过滤条件的数据（AND 链接）。

要将此集成到 Nagios 中，使用定义程序作为目标的选项，该目标会在每个事件上被调用：

**`template`** 指令格式化输出，使其适合用于 **`send_nsca`**，使用分号作为分隔符：主机和服务名称（**`syslog-ng`**）后面跟着状态（**`1`** = 警告；**`2`** = 严重），然后是实际输出文本。除了 **`$H0ST`** 和 **`$MSG`**，**`syslog-ng`** 还有一系列其他宏，这些宏在主页上的文档中分别进行了描述。参数 **`template_escape`** 用于保护文本中的引号，主要用于 SQL 命令，因此在这种情况下可以将其设置为 **`no`**。

以下脚本 **`send_syslog.sh`** 使用 bash 函数 **`read`** 逐行读取标准输入，对于每行读取的内容，它调用 **`send_nsca`**，将数据作为被动测试结果发送到 Nagios（如本章所述）：

由于使用了分号作为分隔符，我们使用选项 **`-d`** 明确指定这一点。每个 **`send_nsca`** 命令在标准输出上显示的状态报告被脚本重定向到单独的日志文件（**`/usr/local/nagios/var/send_syslog.log`**）。

由于 syslog 配置中的 **`program`** 指令，**`syslog-ng`** 会自动启动脚本。这也是 **`send_nsca`** 命令处于无限循环中的原因：这意味着每次有相关事件时，**`syslog-ng`** 都不会运行外部程序。

## 14.5.2 Nagios 配置：易变服务

在 Nagios 术语中，“volatile”指的是只显示一次错误状态的服务。这适用于例如在查询错误时自动重置状态的设备——这意味着错误无法重现。同样适用于 syslog 条目：如果跟随错误状态检查返回错误，这始终是第二个事件。因此，这里没有持续错误状态，而是一个再次发生的问题。

对于持续错误状态，Nagios 通常在将问题状态分类为硬状态之前不会发送任何进一步的消息。然而，有了**`is_volatile`**参数，它将每个错误都视为刚刚发生。Nagios 记录状态，发送通知，并实现事件处理器——如果已定义的话——（见第 619 页的附录 C

图 14-2. `syslog-ng`服务处于错误状态

此问题可以通过 Web 界面解决，该界面允许手动生成被动检查结果。

如果您点击图 14-2 中的服务名称，将显示扩展状态信息（图 14-3

图 14-3. 箭头指向生成`syslog-ng`服务的被动测试结果的可能性

当然，您也可以为每个 syslog 事件定义自己的服务。这有时可能相当耗时，但它确实允许您在 Web 界面中分离各种消息及其处理状态。如果**`syslog-ng`**中的过滤器限制为 syslog 服务对象始终只引用一个要监控的资源，您也可以省略**`is_volatile`**参数。

![创建被动检查结果 syslog-ng](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223840.png.jpg)

图 14-4. 创建被动检查结果 `syslog-ng`

* * *

^([141]) 中的“ng”代表*下一代*。

^([142]) [`sourceforge.net/projects/logcheck/`](http://sourceforge.net/projects/logcheck/)

^([143]) [`www.balabit.com/products/syslog_ng/`](http://www.balabit.com/products/syslog_ng/)

# 14.6 应用示例 II：处理 SNMP 陷阱

由 SNMP 代理（见 11.1 SNMP 简介）。

## 14.6.1 使用**`snmptrapd`**接收陷阱

为了接收 SNMP 陷阱，你需要一个特殊的 Unix/Linux 守护进程，它从它们生成消息供 Nagios 使用。软件包 NET-SNMP，在 11.2.2 NET-SNMP 守护进程中描述，包括守护进程**`snmptrapd`**。

在以下场景中，**`snmptrapd`**安装在第三台主机上（既不是生成陷阱的计算机，也不是 Nagios 服务器）。它通过脚本评估接收到的信息，并将其通过 NSCA 转发到 Nagios 服务器。145]

在**`snmptrapd`**配置文件**`/etc/snmp/snmptrapd.conf`**中，每个陷阱类型都有一个单独的条目，其语法对应于以下行之一：

关键字**`traphandle`**后面跟的是所需陷阱的对象标识符，或者跟关键字**`default`**。在后一种情况下，条目适用于所有没有自己的配置条目的陷阱。最后，指定了在接收到相关陷阱时应运行的程序。

此外，你还可以包括与此程序一起使用的参数。但在此过程中必须小心。引号由**`snmptrapd`**作为字符传递，而空格始终用作分隔符。这意味着你不能传递包含空格的任何参数，这在分配 Nagios 中的名称服务时应予以考虑。

**`snmpdtrapd`**通过标准输出以以下格式向此程序提供信息：

第一行包含发送消息的主机的完全限定域名，第二行是其 IP 地址。然后给出一个或多个 OID-值对，每个值对占一行。特定事件通常与一个唯一的 OID-值对相关联，因此程序通常可以完全省略 OID-值对的评估。

在下面的 **`snmptrapd.conf`** 示例中，为了便于阅读，行已被换行。每个 **`traphandle`** 指令 *必须* 在一行中输入：

这里使用的陷阱默认由 NET-SNMP 包中的 SNMP 代理 **`snmpd`** 发送，只要在 **`snmpd.conf:`** 中指定了目的地。

如果收到带有 OID **`SNMPv2-MIB::coldStart`** 的陷阱，例如，**`snmptrapd`** 将使用参数 **`cold-start`** 启动脚本 **`handle-trap`**。这样它就不必首先从 OID-值对中搜索必要的信息。然而，这个快捷方式仅适用于描述其功能的陷阱 OID 名称。

## 14.6.2 将陷阱传递给 NSCA

脚本 **`handle-trap`**，由 **`snmptrapd`** 运行，分解传递的信息并将其正确格式化后传递给 **`send_nsca:`**

首先它保存日志文件和 Nagios 服务器 **`nagsrv`** 的名称，每个都在单独的变量中。第一个 **`case`** 语句指定 Nagios 用于传递的 IP 地址（暂时存储在 **`IPADDR`** 中）的主机名。**`HOST`** 通常包含完全限定域名，这也不可以直接使用，有时也只包含一个 IP 地址，因此在这里使用后者更好。显式测试还允许它丢弃来自不受欢迎的主机的陷阱。最后，匹配的陷阱无需进一步认证即可在 Nagios 服务器上着陆.^([146])

下面的 **`if`** 语句确定是否也向脚本提供了服务名称。如果是这样，则将其保存到 **`SERVICE`** 变量中。如果有第二个参数，过程类似。根据值，下一个 **`case $SWITCH`** 指令定义输出文本和 Nagios 期望的状态。

最终组装 NSCA 的命令，并通过脚本将 **`CMD`** 变量传递给 **`send_nsca`**。与前面的示例一样，使用分号作为分隔符，这必须在 **`send_nsca`** 中使用选项 **`-d`** 指定。

## 14.6.3 匹配服务定义

与 **`syslog-ng`** 示例（14.5.1 为使用 Nagios 准备 syslog-ng 在第 309 页专门讨论了易变服务的问题。

* * *

^([144]) [`www.opennms.org/`](http://www.opennms.org/)

^([145]) 如果您在 Nagios 服务器本身上安装**`snmptrapd`**，则不需要 NSCA，并且可以像第 13.2 节被动服务检查中描述的那样，直接将格式化命令发送到外部命令接口，该节在第 293 页。

^([146]) 虽然 SNMPv3 确实为 SNMP 陷阱提供了认证，但这超出了本书的范围。

# 第十五章. 分布式监控

可以使用被动服务和主机检查来创建一个场景，其中几个非中心 Nagios 实例将它们的结果发送到中央服务器。通常，它们使用 Nagios 服务检查接受者（参见第十四章）。

![使用 Nagios 进行分布式监控](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223842.png)

图 15-1. 使用 Nagios 进行分布式监控

# 15.1 启用 OCSP/OCHP 机制

为了使用 OCSP/OCHP，需要几个步骤。该机制最初在全局配置文件**`/etc/nagios/nagios.cfg`**中的非中央 Nagios 服务器上开启（仅限），其中定义了针对主机（OCHP）和服务的全局命令。这导致非中央 Nagios 实例将每个结果发送到中央服务器。

在服务和主机定义中，您可以额外设置相应的服务或主机是否应该使用该机制。为了使中央 Nagios 服务器能够使用传输的结果，它上面的每个服务或主机最终都必须重新定义一次。

只有在您确实想要分布式监控的情况下，才应在**`nagios.cfg`**中开启**`obsess_over_services`**和**`obsess_over_hosts`**这两个参数。

每次 Nagios 服务器收到新的测试结果时，它会调用使用**`ocsp_command`**或**`ochp_command`**定义的命令对象。这会在资源上造成额外的负载。

这两个超时防止 Nagios 在一个命令上花费太多时间。如果处理没有终止（因为命令本身没有超时，中央 Nagios 服务器没有反应），那么非中央 Nagios 实例的进程表会很快填满，并可能溢出。

如果您想选择性地排除特定服务和主机的测试结果，不将其传输到中央 Nagios 服务器，可以使用以下参数：

当值为**`1`**时，本地 Nagios 实例将主机或服务检查的结果发送到中央服务器，但值为**`0`**时，则不会发生这种情况。**`1`**是**`obsess_over_hosts`**和**`obsess_over_services`**的默认值；如果结果**不**要传输，则必须指定这两个参数。如果中央位置只负责特定的事情，而其余的行政工作在现场进行，则始终建议这样做。

# 15.2 定义 OCSP/OCHP 命令

定义非中央实例将结果发送到 Nagios 主服务器的两个命令，在大多数情况下涉及基于**`send_nsca`**的脚本（参见 14.4 将测试结果发送到服务器中的示例）。对于服务，这样的脚本如下所示，在这种情况下称为**`submit_service_check:`**

当运行时，命令期望在命令行上以正确的顺序提供四个参数：监控的主机、服务名称、插件打开的返回值（**`0`** 表示 OK，**`1`** 表示 WARNING 等），以及插件发出的单行信息文本。为了格式化数据，我们使用**`printf`**函数（**`man printf`**）。最终将格式化后的字符串传递给**`send_nsca`**。

OCHP 的等效脚本（存储在此处的文件**`submit_host_check`**）看起来如下所示：

唯一缺少的是服务描述的指定。

最好将这两个脚本，按照 Nagios 文档的要求，存储在插件目录（通常是 **`/usr/local/nagios/libexec`**，但对于某些发行版来说将是 **`/usr/lib/nagios/plugins`**）下的子目录 **`eventhandlers`** 中（通常需要创建）。您可以使用宏 **`$USER1$`** 从匹配的命令对象定义中检索它。这最好在 **`misccommands.cfg 文件`** 中定义：

如果您为此使用单独的文件，您必须确保 Nagios 通过在 **`/etc/nagios/nagios.cfg`** 中添加条目来加载此文件。**`$SERVICEDESC$`** 宏和 **`command_line`** 行中的两个输出宏周围的单引号很重要。它们的值有时包含空格，如果没有引号，命令行会将这些空格解释为分隔符。

# 15.3 实际场景

分布式监控的一个应用是监控分支或外部办公室，在这些地方，非中心 Nagios 安装仅限于运行服务和主机检查，并将结果发送到中心实例。非中心实例不需要进一步使用 Nagios 功能，如通知系统或 Web 界面。

另一方面，如果管理员负责分布式位置的网络安全，而中心 IT 部门只负责特殊服务，那么非中心 Nagios 服务器将设置为正常、完整的安装，并选择性地通过 OCSP/OCHP 机制仅将那些检查结果转发到中央办公室，那里的专家负责。

无论情况如何，您必须确保主机和服务定义在非中心和中心都可用。这可以通过使用模板（2.11 模板，第 75 页）和 **`cfg_dir`** 指令（2.1 主配置文件 nagios.cfg，第 55 页）非常简单地完成：您设置定义，以便配置文件可以 1:1 复制。

## 15.3.1 避免配置文件中的冗余

在以下示例中，我们假设非中心服务器仅执行主机和服务的检查，并将结果发送到中心服务器，不提供任何其他 Nagios 功能。以下目录设置在中心主机上：

用于每个位置的配置都放在目录 **`/etc/nagios/sites/`** 下的 **`location`** 目录中。在 **`global`** 之后，所有可以在所有位置相同使用的定义都跟随（例如，在 **`checkcommands.cfg`** 中的命令定义）。目录 **`local`** 包含针对中心服务器定义的特定定义。这些包括服务和主机的模板，其中必须区分中心和外部。

此目录也在非中心服务器上单独创建：仅从中心实例复制 **`global`** 和 **`sites/`****``*`location`*``** 文件夹到分支机构。

三个目录通过 **`/etc/nagios/nagios.cfg`** 中的 **`cfg_dir`** 指令读取。

在服务定义中仅使用对于非中心页面和中心页面都相同的设置：

位置相关的参数由模板处理。

## 15.3.2 定义模板

为了确保中心服务器和非中心服务器上的服务定义一致，本地模板必须与中心模板具有相同的名称。此外，您还应该确保所有必需的参数（参见第二章配置 Nagios 第 53 页）都已输入，即使它们在某个位置不是必需的，因为模板和服务定义必须共同覆盖所有必需的参数。

以下示例显示了一个非中心位置的服务模板：

对于非中心页面重要的参数以粗体形式打印。除了指向测试本身的参数外，参数 **`obsess_over_services`** 也必须包含在内。这确保检查结果被发送到中心服务器。

**`notifications_enabled`** 在此情况下关闭通知，因为本地管理员无需担心来自中心监控服务的错误消息。或者这也可以在非中心的 **`/etc/nagios/nagios.cfg`** 中全局完成。

**`register 0`** 确保模板仅作为模板使用，因此 Nagios 不会将其解释为单独的服务定义。

中心服务器上具有相同名称的对应部分看起来如下：

max_check_attempts            3
normal_check_interval         5
retry_check_interval          1
active_checks_enabled         0

参数 **`passive_checks_enabled`** 以及通知系统的配置在这里很重要。在中心侧，涉及测试本身的参数仅在启用新鲜度检查时才会起作用（参见第 13.4 节对被动检查过时信息的反应第 295 页）。这仅在中心 Nagios 服务器本身能够主动测试所有服务且有任何疑问时才有效。由于在此简单的模板解决方案中，**`check_command`** 在位置相关的服务定义中给出，且在非中心和中心服务器上相同，因此只有在中心和非中心都可以使用相同的命令对象时才会有效——如果**`global/checkcommands.cfg`** 中的对象定义在两边匹配。

然而，在示例中，我们完全关闭了波恩地点的服务主动测试，使用 **`check_period none`** 和将 **`check_freshness`** 设置为 0。到目前为止所描述的系统当然也可以应用于主机检查。

# 第三部分. Web 界面和其他可视化 Nagios 数据的方法

# 第十六章. 经典 Web 界面

右侧是带有醒目黑色背景的导航区域，其余区域用于显示被调用的 CGI 脚本（图 16-1）- Nagios Web 界面就这么简单。起始屏幕提供了访问程序文档的入口——如果你只是想快速查找某些信息，这非常实用。

只要你有正确的访问权限，Web 界面允许你做的不仅仅是查找信息。你可以运行一系列命令并主动控制 Nagios：从设置单个命令，到开关消息，到重启服务器。

要完全描述所有功能，需要单独一本书。这就是为什么我们在这里只描述 CGI 程序所基于的概念，^([147]) 以此方式向您展示可用的广泛选项。

许多功能使用相同的 CGI 程序。如果你在图 16-1 所示的导航区域上下移动鼠标，并观察浏览器在此操作时的状态显示，这会揭示要调用的 URL，你将看到在**监控**部分直到**显示主机**：输入字段，始终调用 CGI 程序**`status.cgi`**，只有四个例外。参数不同。对于 CGI 程序**`cmd.cgi`**，情况类似，它可以运行一般命令。传递的参数指定是否读取注释，或启用或禁用消息，或重启 Nagios。

![The subitem Unhandled under both the Service Problems and Host Problems menu items has only been on the start page of the Nagios Web interface since Nagios 3.0.](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223844.png.jpg)

图 16-1. 在“服务问题”和“主机问题”菜单项下未处理的子项自 Nagios 3.0 以来一直位于 Nagios Web 界面的起始页。

表 16-1. CGI 程序概述

| CGI 程序 | 描述 |
| --- | --- |
| **`status.cgi`** | 以各种形式显示状态；迄今为止最重要的 CGI 程序（图 16-10 到 图 16-15, 第 334 页）。 |
| **`statusmap.cgi`** | 监控主机的拓扑表示（参见 图 16-27, 第 347 页） |
| **`statuswrl.cgi`** | 以 3D 格式表示拓扑结构；需要 VRML 兼容的浏览器，并允许在虚拟空间中进行交互式导航（图 16-29, 第 349 页） |
| **`statuswml.cgi`** | WAP 设备（手机）的简单状态页面 |
| extinfo.cgi | 关于主机或服务的附加信息，以及运行命令的可能性（图 16-4, 第 331 页） |
| cmd.cgi | 运行命令（图 16-23, 第 343 页） |
| tac.cgi | 所有要监控的服务和主机的概述，**战术概述**（参见 图 16-26, 第 346 页） |
| outages.cgi | 导致部分网络故障的网络节点（图 16-30, 第 350 页） |
| config.cgi | 显示 Nagios 对象定义（图 16-31, 第 352 页） |
| histogram.cgi | 发生事件的数量的直方图（图 16-34, 第 353 页） |
| History.cgi | 显示所有曾经发生的事件（图 16-35, 第 355 页） |
| notifications.cgi | 所有已发送通知的概述（图 16-36, 第 355 页） |
| showlog.cgi | 显示所有日志文件条目 (图 16-37, 第 356 页) |
| summary.cgi | 事件报告，可以按主机、服务、错误类别和时间段进行编译 (图 16-39, 第 358 页) |
| trends.cgi | 记录已发生状态的时序轴 (图 16-40, 第 359 页) |

表 16-1 显示了包含在包中的所有 CGI 程序的概述。它们都会检查运行请求操作的人是否有权这样做。通常，用户只能访问他作为联系人登记的主机和服务的相关信息。此外，还有可能为特定用户分配更全面的权限，使他们基本上可以显示所有主机和服务，例如，或请求系统信息。其他用户的设置在**`cgi.cfg`**配置文件中完成，认证参数在 A.2 cgi.cfg 中的 CGI 配置, 第 606 页中描述。

# 16.1 识别和应对问题

对于管理员来说，一个合适的起点是**服务问题**页面，可以通过菜单项访问，如图图 16-2 所示。您可以一目了然地看到所有问题。如果只有与服务相关的问题，但没有与主机相关的问题，**主机**列中的主机名背景为灰色，但红色背景表示主机本身是问题的来源。

![服务问题菜单项将当前问题提请注意](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223846.png.jpg)

图 16-2. 服务问题菜单项将当前问题提请注意

主机 **`sis-mail`** 和 **`sis-proxy`**，在图 16-2 中失败，现在可以在**主机问题**菜单项中再次看到它们（图 16-3)：**`sis-mail`**无法访问（不可达），因此真正的故障因此存在于主机 **`sls-proxy`** 的失败中。这种依赖关系在**故障**菜单项中得到了说明（图 16-30, 第 350 页）或**状态图**（图 16-27, 第 347 页）。在图 16-27 中，两个失败的主机以红色背景显示，并且你可以清楚地看到哪个主机依赖于另一个主机（始终从中央 Nagios 主机的角度）。

![主机问题菜单项揭示了此显示](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223848.png.jpg)

图 16-3. 主机问题菜单项揭示了此显示

## 16.1.1 对有问题的主机的注释

管理员通过电话与外部办公室澄清了问题：DSL 连接已失败。他向负责的提供商宣布了这一故障。为了防止他的同事再次遇到同样的麻烦，管理员在失败的主机上输入了相应的注释。为此，他点击状态显示中的主机名，这会带他到一个特定主机的信息页面（图 16-4)，这些选项在 16.2.2 附加信息和控制中心：extinfo.cgi 中有更详细的描述，第 339 页。

![extinfo.cgi 提供所选主机的附加信息](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223850.png.jpg)

图 16-4. `extinfo.cgi` 提供所选主机的附加信息

使用页面底部的**添加新注释**链接，CGI 程序**`cmd.cgi`**（16.2.3 外部命令接口：cmd.cgi, 第 343 页），通过传递相应的参数已经为此任务做好了准备，^([148]) 允许记录注释（图 16-5). 主机名已经显示，**持久**框中的勾选确保注释也将“存活”在 Nagios 重启之后。在**作者（您的姓名）：**字段中填写的用户名可以编辑，同样，**注释**字段中的实际注释也可以编辑.^([149])

![为主机添加注释](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223852.png.jpg)

图 16-5. 为主机添加注释

管理员通过**提交**按钮确认输入。返回到状态概览，例如使用**服务问题**菜单项，管理员将在主机名旁边看到一个气泡，表示此主机存在注释（图 16-6). 点击图标将打开对应的信息页面，并将管理员直接带到注释输入页面（图 16-7). 点击**操作**列中的垃圾桶图标可以单独删除这些注释，如果需要的话。

![一个气泡显示注释的存在](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223854.png.jpg)

图 16-6. 一个气泡显示注释的存在

![点击删除所有注释将一次性删除所有注释](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223856.png.jpg)

图 16-7. 点击删除所有注释将一次性删除所有注释

## 16.1.2 对问题承担责任

*致谢*（在 Web 界面上如此拼写）比简单的注释更接近工作流程。致谢信号向其他管理员表明有人已经在处理问题，因此暂时不需要其他人介入。在状态概览中，一个小工图标象征着这种承担责任的形式（图 16-8")), Nagios 还会通知相关联系人。

要发出此类声明，需要在相关主机的扩展信息页面上使用**“确认此主机问题”**链接。除了用于输入正常评论的字段外，此情况下还有两个复选框，**“粘性确认”** (图 16-9)——如果选中，此选项将防止在错误状态持续时进行周期性通知——以及**“发送通知”**。如果后者也被选中，Nagios 将通知其他管理员。

![一个工人图标表示管理员已经承担了问题的责任（确认）](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223858.png.jpg)

图 16-8. 一个工人图标表示管理员已经承担了问题的责任（确认）

![主机确认输入对话框](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223860.png.jpg)

图 16-9. 主机确认输入对话框

**持久性注释**在 Nagios 2.x 和 Nagios 3.0 中的效果不同：在 Nagios 2.x 中，只有当复选框被标记时，注释才会被保留。不幸的是，使用这种方法在重启时保存注释的缺点是，当问题解决后，注释不会自动消失。另一方面，Nagios 3.0 通常在重启后保留所有注释。如果删除**“持久性注释”**的勾选标记，Nagios 将在问题得到纠正后立即自动删除注释。如果勾选标记被设置，当不再需要时，必须手动删除注释，就像在 Nagios 2.x 中一样。

我们在这里使用故障主机状态进行演示的内容，也可以应用于故障服务。CGI 程序是相同的，并且通过传递参数，它们会接收到有关是否涉及主机或服务的相关信息，并相应地做出反应；只有主机字段会以**服务**条目的形式获得支持。

* * *

^([147]) 我们在这里提到 CGI 程序而不是 CGI 脚本的合理原因是：Nagios 2.x 和 3.0 的所有 CGI 程序都是 C 程序。

^([148]) **`cmd_type=1&host=sls-proxy`**. 关于参数的更多内容请参阅 16.2.3 外部命令接口：cmd.cgi，见第 343 页。

^([149]) 从 Nagios 3.0 开始，可以通过使用参数**`lock_author_name`**（参见 A.2.2 其他参数）来防止修改作者名称。

# 16.2 各个 CGI 程序概述

在本书付印时，这一章是关于 Nagios Web 界面的最全面文档，特别是针对单个 CGI 脚本。但由于篇幅限制，我们不会深入每个细节。如果你想要了解更多，你必须查看脚本的源代码或查看**`nagios-users`**^([150])邮件列表。其中一些也被 Nagios 开发者阅读，许多问题在那里得到了解答，而这些问题的文档目前尚不存在。

## 16.2.1 状态显示的变体：**`status.cgi`**

到目前为止，最重要的 CGI 程序是**`status.cgi`**，它负责状态显示。显示的内容由三个参数组决定。第一个参数组定义生成的网页是否显示所有主机、特定主机或服务组：

使用**`host`**可以选定单个主机，而在此情况下**`all`**代表所有主机。**`hostgroup`**允许显示特定的主机组，同样你也可以使用**`all`**来代表所有主机组。最后，**`servicegroup`**指示 CGI 程序显示给定值的单个服务组或**`all service groups`**，使用**`all`**。

![The overview output style](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223862.png.jpg)

图 16-10. 概览输出样式

**`host=all`**和**`hostgroup=all`**的输出在样式上有所不同，这种样式由第二个参数组定义。对于**`host=all`**，**`style=detail`**是默认设置，而对于**`hostgroup=all`**，它是**`style=overview.status.cgi?host=all&style=overview`**，因此它产生的结果与**`status.cgi?hostgroup=all`**相同。

不属于任何主机组的主机仅在**`host=all&style=detail`**或**`hostgroup=all&style=hostdetail`**的详细视图中出现。所有其他显示样式总是显示整个主机组，其中可能缺少单个主机。**`status.cgi`**提供了五种可能的输出样式：**`overview`**以表格形式表示主机，但根据状态总结服务（图 16-10 展示了这种情况）。对于**`SAP`**主机组，你可以通过以下 URL 调用相应的显示

**`style`**值**`summary`**压缩了**`overview: status.cgi`**的输出，仅显示每行一个主机组（图 16-11 展示了 Nagios 2.x 的情况，图 16-12 展示了 Nagios 3.0 的情况）。对于 Nagios 3.0，错误状态被区分成**未处理**（未设置确认）或**已确认**。

![Nagios 2.x 的摘要输出样式](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223864.png.jpg)

图 16-11. Nagios 2.x 的**`summary`**输出样式

![The summary output style of Nagios 3.0](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223866.png.jpg)

图 16-12. Nagios 3.0 的 ``*`summary`*`` 输出样式

**`grid`** 样式提供了一个非常吸引人的总结，您可以通过它所突出显示的颜色看到每个单独服务的状态（图 16-13）。**`detail`** 在单独的一行中详细显示每个服务。**`hostdetail`** 输出样式仅限于主机信息，为每个主机提供一行详细信息的详细信息（图 16-15）。

![The grid output style](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223868.png.jpg)

图 16-13. `grid` 输出样式

![The detail output style](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223870.png.jpg)

图 16-14. `detail` 输出样式

![The hostdetail output style](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223872.png.jpg)

图 16-15. `hostdetail` 输出样式

第三个也是最后一个参数组允许您通过 *选择器* 影响由 **`status.cgi`** 显示的状态和属性，例如尚未由管理员设置确认的所有处于错误状态的服务（参见 16.1.2 负责问题，第 332 页）。状态通过 **`hoststatustypes`** 或 **`servicestatustypes`** 参数传递，属性通过 **`hostprops`** 和 **`serviceprops`**。所有四个参数在等号后都需要数值，这些数值总结在 表 16-2、表 16-3 和 表 16-4 中。

表 16-2. `Hoststatustypes` 的可能值

| 值 | 描述 |
| --- | --- |
| 1 | 待定（由于为该主机计划进行的第一次测试的结果尚未可用） |
| 2 | UP |
| 4 | DOWN |
| 8 | 不可达 |

第三个也是最后一个参数组允许使用**选择器**来影响**`status.cgi`**显示哪些状态和属性，例如，所有尚未设置确认的故障状态的服务（参见 16.1.2 负责问题）。条件通过参数**`hoststatustypes`**或**`servicestatustypes`**传递，属性通过**`hostprops`**和**`serviceprops`**参数传递。所有四个参数都需要等于号后的数值，这些数值总结在表 16-2、表 16-3 和表 16-4 中。

表 16-3. `Servicestatus types` 的可能值

| 值 | 描述 |
| --- | --- |
| 1 | 待定（服务最初计划进行检查，但迄今为止没有结果可用） |
| 2 | 正常 |
| 4 | 警告 |
| 8 | 未知 |
| 16 | 严重 |

表 16-4. `host` 和 `serviceprops` 的可能值

| 值 | 描述 |
| --- | --- |
| 1 | 计划的下线时间（计划下线） |
| 2 | 没有计划的下线时间（没有计划下线） |
| 4 | 确认（状态已由管理员确认） |
| 8 | 没有确认 |
| 16 | 主机/服务检查已禁用 |
| 32 | 主机/服务检查已启用 |
| 64 | 事件处理器已禁用 |
| 128 | 事件处理器已启用 |
| 256 | 振荡检测已禁用 |
| 512 | 振荡检测已启用 |
| 1024 | 主机/服务振荡（波动） |
| 2048 | 主机/服务不振荡 |
| 4096 | 当前排除在通知之外的主机或服务 |
| 8192 | 通知已启用 |
| 16384 | 被动主机/服务检查已禁用（第十三章） |
| 32768 | 被动主机/服务检查已启用 |
| 65536 | 至少有一个被动测试结果的主机/服务 |
| 131072 | 至少有一个活动检查结果的主机/服务 |
| 262144 | 硬状态下的主机/服务（从 Nagios 3.0 开始） |
| 524288 | 软状态下的主机/服务（从 Nagios 3.0 开始） |

如果你想同时查询多个状态或属性，只需将指定的值相加：**`status.cgi?host=all&servicestatustypes=28`** 显示所有具有错误状态的服务：警告、未知和严重，即 4+8+16 = 28。此查询与导航区域中的**服务问题**菜单项相同。

**`status.cgi?hostgroup=all&hoststatustypes=12&style=hostdetail`** 对应导航区域中的 **主机问题** 菜单项。它查询所有处于 DOWN 或 UNREACHABLE 状态的主机（这里 4+8 = 12）。由于只应显示主机信息，而不显示服务信息，因此输出样式为 **`hostdetail`**。

**`status.cgi?host=all&servicestatustypes=24&serviceprops=10`** 是第一个示例的变体：仅显示状态为 UNKNOWN 和 CRITICAL（8 + 16 = 24），并且既不显示计划停机时间，也没有已经被确认（2 + 8 = 10）。

CGI 程序每次在单独的复选框中指定过滤器参数。图 16-16 展示了第三个示例。

![此信息框显示了 status.cgi 应显示的状态和属性](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223874.png.jpg)

图 16-16. 此信息框显示了 status.cgi 应显示的状态和属性

如果您愿意，可以根据自己的需求定义自己的导航区域，或者直接使用现有的导航区域。主页由一个框架组成，导航区域本身由一个普通的 HTML 文件定义：**`/usr/local/nagios/share/side.html`**.^([151])

在 Netways 的 Nagios 示例页面上提供了一个更改后的 **`side.html`** 示例^([152]);^([153]); 另一个示例是图 16.6 使用 Nuvola 风格的现代布局中展示的 Nuvola 风格。

## 16.2.2 额外信息和控制中心：**`extinfo.cgi`**

如果使用 **`host`** 或 **`service`** 参数调用，**`extinfo.cgi`** 不仅提供特定主机或服务的详细信息（图 16-4, 第 331 页），还充当主机和服务（参数 **`hostgroup`**）以及服务组（**`servicegroup`**）的控制中心。根据被调用的对象类，您可以从这里运行各种命令。

在左侧区域，详细记录了主机的状态，而在右侧的框中——被**主机命令**覆盖——提供了可以运行的命令选择。这些命令调用**`cmd.cgi`**（16.2.3 外部命令接口：cmd.cgi，第 343 页）并且仅在外部命令接口（13.1 外部命令接口，第 292 页）激活时才有效。页面底部允许您输入特定对象的注释、读取它们，并再次删除。**`extinfo.cgi`**为服务生成的网页也遵循此模式。

服务和主机组的对应页面（图 16-17），另一方面，仅允许运行特定组的命令，并且不显示任何其他信息。每个命令适用于整个组，从而节省了大量的鼠标点击。例如，**禁用此主机组中所有主机的通知**，确保 Nagios 不再向此主机组中的主机发送任何消息。

![SAP 主机组的命令中心：extinfo.cgi?type=5&hostgroup=SAP](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223876.png.jpg)

图 16-17. SAP 主机组的命令中心：`extinfo.cgi?type=5&hostgroup=SAP`

除了主机、服务和相应的组之外，CGI 程序还有其他显示功能，这些功能由 CGI 参数**`type:`**启用

根据指定的值，可能需要进一步参数，因此要显示服务，还必须包括主机名和服务标识：

**`extinfo.cgi?type=0`**

显示 Nagios 进程本身及其所有全局参数的信息（例如启动时间和进程 ID；通常包括发送通知、处理性能数据等；参见图 16-18)。在**进程命令**框中可以更改全局参数，并且 Nagios 也可以停止和重新启动。

![Nagios 进程和全局设置信息：extinfo.cgi?type=0](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223878.png.jpg)

图 16-18. Nagios 进程和全局设置信息：`extinfo.cgi?type=0`

**`extinfo.cgi?type=l&host=`****``*`host`*``**

显示**``*`主机`*``**（参见图 16-4，第 331 页）的命令和信息。

**`extinfo.cgi?type=2&service=`****``*`service`*``**

对于**``*`服务`*``**也是如此。

**`extinfo.cgi?type=3`**

在单页上显示所有可用的主机和服务评论(图 16-19)。

![所有现有评论的概述：extinfo.cgi?type=3](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223880.png.jpg)

图 16-19. 所有现有评论的概述：`extinfo.cgi?type=3`

**`extinfo.cgi?type=4`**

提供了按主机和服务以及主动和被动检查分开的 Nagios 性能信息(图 16-20)。

![性能信息：extinfo.cgi?type= 4](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223882.png.jpg)

图 16-20. 性能信息：`extinfo.cgi?type= 4`

中间列显示了 Nagios 在过去 1、5、15 和 60 分钟内已经执行了多少个计划测试。只要存在**`normal_check_interval`**超过五分钟的检查，前两个值永远无法达到 100%。

右侧列定义了此页的实际值：**检查执行时间**指定了 Nagios 执行主动主机和服务检查所需的最小、最大和平均时间。**检查延迟**衡量了测试计划开始时间和实际运行时间之间的距离。如果这种延迟明显大于一或两秒，Nagios 可能存在性能问题。一个可能的原因是系统处理性能数据太慢，但低性能硬件也可能在这里发挥作用。寻找原因有时可能非常困难，原始文档^([154])提供了关于此主题的一些提示。

**`extinfo.cgi?type=5&hostgroup=`****``*`hostgroup`*``**

显示主机组的命令中心(图 16-17 在第 339 页)。

**`extinfo.cgi?type=6`**

显示主机和服务的所有计划维护期(图 16-21)。

![所有计划维护期的概述：extinfo.cgi?type=6](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223884.png.jpg)

图 16-21. 所有计划维护期的概述：`extinfo.cgi?type=6`

**`extinfo.cgi?type=7`**

显示所有计划测试的概述，按下一个实施时间排序（见图 16-22）。在此旁边，**`extinfo.cgi`**还列出了上次检查的时间。

**“活动检查”**列显示相应的测试是否处于活动状态，而在**“操作”**列中可以删除计划中的检查或将检查移动到不同的时间。

**`extinfo.cgi?type=8&servicegroup`****``*`servicegroup`*``**

显示服务组的命令中心，其结构与主机组的命令中心相同。

![所有计划中的测试，按计划实施时间排序：extinfo.cgi?type=7](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223886.png.jpg)

图 16-22. 所有计划中的测试，按计划实施时间排序：`extinfo.cgi?type=7`

## 16.2.3 外部命令接口：**`cmd.cgi`**

作为一名真正的全能选手，**`cgi.cmd`**，拥有大约 100 个功能，涵盖了接口为外部命令提供的几乎所有可能性。**`cmd_typ`**参数定义了 CGI 程序应该运行这些功能中的哪一个。以下命令

关闭特定服务的活动服务检查（图 16-23）。为了唯一描述所需的服务，必须指定主机和服务描述。如果手动运行 CGI 程序，显示的 Web 表单将查询这些值；如果**`cmd.cgi`**由另一个 CGI 程序启动，所需数据将通过 CGI 参数传递。此处可能的参数是**`host`**、**`service`**、**`hostgroup`**和**`servicegroup`**，后面跟着一个等号（=）和相应的 Nagios 对象。

![使用 cmd.cgi?cmd_typ=6 禁用服务检查](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223888.png.jpg)

图 16-23. 使用`cmd.cgi?cmd_typ=6`禁用服务检查

图 16-24 列出了指向主机或服务的最重要命令，而图 16-25 显示了那些指向全局参数控制（对应于主配置文件**`nagios.cfg`**中的值）。源代码文件**`include/common.h`**包含所有可能值的完整列表，包括计划中但尚未实现的值。

图 16-24 和图 16-25 的第一列描述了命令的功能：**`ADD_HOST_COMMENT`**为主机添加注释，**`DISABLE_ACTIVE_SVC_CHECK`**关闭服务的活动检查（简称为**`SVC`**）。

此后的列指定了相应函数所引用的对象类型。要添加带有**`ADD_HOST_COMMENT`** 的注释，你必须指定相关的主机。因此，在主机列中显示的函数代码**`1`**。只有当匹配的服务被命名时，才能关闭特定的活动服务检查，所以函数代码**`6`** 应该在**服务**列中找到。使用**`16`**，你可以关闭指定主机上的所有活动服务检查；也有针对主机或服务组所有活动服务检查的相应代码。

使用**`ACKNOWLEDGE_PROBLEM`**，管理员确认他正在处理特定问题。**`33`**（主机列）指的是主机问题，而**`34`**（**服务**列）指的是服务问题。灰色字段表示没有对应于主机和服务组的函数。当使用**`cmd_typ=33`** 打开的网页表单时（图 16-9

图 16-24. `cmd.cgi?cmd_typ=` 最重要主机和服务相关代码

指向全局参数的函数（图 16-25

图 16-25. `cmd.cgi` 命令代码用于全局参数

## 16.2.4 一目了然的最重要事项：**`tac.cgi`**

作为“战术概览”，**`tac.cgi`** 在一个网页上提供了大量信息，以摘要形式显示（图 16-26

图 16-26. 使用 `tac.cgi` 的战术概览

在页面右侧的上框总结了**`extinfo.cgi?type=4`**（参见 16.2.2 额外信息和控制中心：extinfo.cgi）Nagios 性能数据，这些数据可以详细显示。下面的条形图显示了整个监控网络的健康状况，以百分比表示。如果你将鼠标悬停在任何一个条形上，你也会看到百分比数值。

## 16.2.5 网络拓扑图：**`statusmap.cgi`**

**`statusmap.cgi`** (图 16-27) 提供了监控主机之间依赖关系的视图。从中间的中央 Nagios 服务器开始，线条连接了服务器直接到达的所有主机——这些主机的定义不需要指定**`parents`**参数（参见 2.3 定义要监控的机器，包括主机，第 62 页）。

图形还揭示了 Nagios 只能通过其他主机间接访问的主机。因此，在**`sis-mail`**和图 16-27 中的 Nagios 服务器之间，有主机**`sis-proxy`**、**`hspvip`**和**`pfint. sis-proxy`**，正如注释**Down**和红色（而不是绿色）的背景所暗示的，已经失败。由于**`sis-mail`**依赖于它，因此它处于 UNREACHABLE 状态，**`statusmap.cgi`**也用红色背景标记。

![以图形方式显示的监控主机依赖关系](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223896.png.jpg)

图 16-27. 以图形方式显示的监控主机依赖关系

Nagios 如何在图形中排列主机由配置文件**`cgi.cfg`**中的参数**`default_statusmap_layout`**(A.2.1 认证参数)定义。布局也可以通过 Web 界面中的选择窗口进行更改（在图 16-28 的右上角）。该图显示了 Netways 的演示系统，其外观取决于用户特定的坐标，在这种情况下，你必须为每个主机单独指定（参见 16.4.1 扩展主机信息）。Nagios 提供的问号图标已被网站管理员更换为更漂亮的图片。坐标和图标由**`hostextinfo`**对象定义，在 16.4.1 扩展主机信息中更详细地描述。

![带有自定义坐标和图标的状况图](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223898.png.jpg)

图 16-28. 带有自定义坐标和图标的状况图

如果将鼠标移至特定的主机上，Nagios 将在左上角打开一个黄色窗口，显示状态信息，包括 IP 地址、当前状态信息和最后检查的时间。在这个框的底部，**`statusmap.cgi`**总结了在此主机上运行的服务状态。

如果你双击特定的主机，Nagios 将分支到通常的状态概述，除了所选主机的数据外，还显示属于此主机的所有服务（第 336 页的图 16-14 提供了一个示例）。

## 16.2.6 3D 导航：**`statuswrl.cgi`**

**`statuswrl.cgi`** 允许 Nagios 在网络计划的 3D 表示中移动 (图 16-29). 在这里，您可以放大到主机，移动整体视图，旋转等。

显示需要 VRML 功能的浏览器.^([156]) 尽管原始文档^([157]) 提供了对应插件的链接，但其中两个已经过时，只有 *Cortona*^([158]) 在印刷时可以访问。然而，这个插件在 Linux 下不工作；在 Windows 下，它与 Internet Explorer 一起工作，也可以与 Netscape、Mozilla 和 Firefox 一起工作.^([159]) 美国国家标准与技术研究院（NIST）在其网站上提供了一个按操作系统和浏览器组织的 VRML 软件的良好概述.^([160])

在 Linux 的 VRML 插件中，*OpenVRML*、^([161]) 和 *free WRL*^([162]) 最有可能被使用。标准的 Linux 发行版通常不包括完整的软件包。OpenVRML 包含在 Fedora 的 Extras 中；在 freeWRL 的主页上有 Fedora 和 Ubuntu 的二进制软件包。除非您是经验丰富的系统管理员或软件开发者，否则您不应该尝试自己编译软件：这里有很多陷阱。如果您以前从未使用过 Java 编译器，也没有自己编译过像 Mozilla 或 Firefox 这样的复杂软件包，那么您应该放弃。

![这张图片标志着您自己的网络之旅的开始](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223900.png.jpg)

图 16-29. 这张图片标志着您自己的网络之旅的开始

但这一切都不是绝望的理由，因为 3D 导航的使用本身就值得怀疑，尤其是当正常状态图的 2D 视图已经显示了所需的所有信息，并且在浏览器中显示简单的平面图形比 CPU 密集型的 3D 渲染要快得多。在您匆忙开始自己编译软件的冒险之前，我们建议您自己决定，使用 Cortona 插件，编译像 OpenVRML 这样的项目是否值得努力。

## 16.2.7 使用手机查询状态：**`statuswml.cgi`**

为了使 Nagios 提供的信息对没有完全功能浏览器的 WAP^([163])设备可访问，**`statuswml.cgi`** 生成 WML 格式的网页，^([164]) 可以用手机显示——前提是 Nagios 服务器在互联网上是可访问的。除了对主机和服务的状态查询外，它还允许 CGI 程序关闭测试和通知，并通过对现有问题的确认来确认问题。

在您将 Nagios 通过互联网访问之前，您应该仔细思考：Nagios 提供了许多敏感数据，这些数据可能会被黑客滥用。如果有疑问，您最好不使用它。没有直接互联网访问，**`statuswml.cgi`** 是无用的，因为手机无法使用如 VPN 隧道之类的受保护访问方法。这就是为什么我们在此处不会详细介绍**`statuswml.cgi`**。

## 16.2.8 分析中断的局部网络：**`outages.cgi`**

CGI 程序 **`outages.cgi`** 只显示那些导致局部网络故障的主机概览中的网络节点：与状态概览不同，如图 16-15，第 336 页，**`outages.cgi`** 在**#受影响的主机**列中指定了每种情况下影响的多少服务和主机（图 16-30）。

![只要 sis-proxy 失败，Nagios 就无法访问其后面的任何主机](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223902.png.jpg)

图 16-30. 只要 `sis-proxy` 失败，Nagios 就无法访问其后面的任何主机

使用**操作**列中的图标，您可以调用其他 CGI 程序，这些程序将选择性地过滤掉此处显示的主机上的信息。从左到右，它们显示了详细视图中的状态显示（交通灯）、拓扑网络视图（网络树）、3D 视图（**3-D**）、趋势显示（图表）、主机日志文件条目（电子表格），以及已发出的通知的显示（扩音器）。

## 16.2.9 使用 **`config.cgi`** 查询对象定义

**`config.cgi`** 展示了指定类型（图 16-31）的所有对象的定义表格概览——涉及的对象类型可以在右上角的选项字段中定义。如果考虑本身包含 Nagios 对象（在主机视图中为**主机检查命令，默认联系人组**，以及——在图片中不可见——**通知周期**），则链接会直接带您到该对象类型的配置视图。

![config.cgi 显示所选对象类（此处为主机）的当前配置（提取）](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223904.png.jpg)

图 16-31. `config.cgi`显示所选对象类（此处为主机）的当前配置（提取）

CGI 程序不提供任何更改设置的方法。此外，只有被列入参数**`authorized _for_configuration_information`**（配置文件**`cgi.cfg`**，第 607 页）的用户才有权访问此视图。

## 16.2.10 可用性统计：**`avail.cgi`**

如果你正在监控系统，那么你也会对其可用性感兴趣。**`avail.cgi`**首先询问你是否对**主机、服务、主机组**和**服务组**感兴趣。选择时间范围后，你将看到概述，如图 16-32 所示。对于**服务**和**主机**，你还可以通过**所有主机**或**所有服务**以 CSV 文件的形式展示可用性数据。

**`avail.cgi`**将主机和服务分别显示。服务或主机在特定状态下保持的时间可以通过相应的颜色列查看——绿色表示 OK，黄色表示 WARNING，红色表示 CRITICAL（服务），DOWN 和 UNREACHABLE（主机）——以百分比表示。显示服务状态为 UNKNOWN 的时间的列以橙色显示。不完整的日志文件显示在**未确定**列中。如果存在大于零的值，则表示 Nagios 无法就状态发表意见的时段。

在每个表格下方，**平均**行指定了各个值的平均值。在图 16-32 中，涉及的主机有 99.965%的时间是可用的。

**`avail.cgi`**在每种情况下都显示了两次可用性：首先作为评估期间的绝对值，然后（在括号中）与数据实际可用的时间相关。只要**时间未确定**列显示**`0.000%`**，两个可用性值就匹配。

![使用 SAP-Services 服务组示例的可用性报告](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223906.png.jpg)

图 16-32. 使用`SAP-Services`服务组示例的可用性报告

如果你点击显示的某个主机或服务，将出现详细视图。图 16-33 展示了主机**`sap-12`**的此类视图。

![主机`sap-12`的可用性详细说明](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223908.png.jpg)

图 16-33. 详细解释了主机`sap-12`的可用性

在一个显示所选期间状态的彩色条形图中，有关于主机本身的详细信息，然后是监控在此主机上运行的服务可用性的统计信息。这包括日志文件的摘录，只显示与主机可用性相关的条目；即**`HOST UP`**、**`HOST DOWN`**或**`HOST UNREACHABLE`**。日志文件条目由**`avail.cgi`**截断以节省空间。

## 16.2.11 发生了哪些事件，频率如何？—**`histogram.Cgi`**

如果主机或服务的状态发生变化，这被称为**事件**。CGI 程序**`histogram.cgi`**以不同的视图显示了这种变化的频率。如果你选择**月日**作为**细分类型**，它说明了哪一天发生了什么事件，以及发生的频率（图 16-34). 服务中的红色图表代表 CRITICAL，橙色代表 UNKNOWN，黄色代表 WARNING，绿色代表 OK。处于 DOWN 状态的主机的曲线由**`histogram.cgi`**用红色标记，不可达主机的曲线用酒红色标记，绿色线条通常代表 OK。

![在哪些天发生了多少种类型的事件？](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223910.png.jpg)

图 16-34. 在哪些天发生了多少种类型的事件？

如果你选择“星期几”这个变化，网页将显示一周中哪一天发生的事件最多，这样你可以找出周一是否真的是最糟糕的一天。此外，你还可以按天（**小时**）或按年月（**月份**）显示频率。通过**报告周期**你可以调整报告周期。通过**假设状态保留**你可以调整是否保留并包含在评估中的先前存在的状态（**`yes`**）或不是（**`no`**）。

如果你已经配置了 Nagios，以便它明确记录监控主机和服务的状态以重启或当日志文件更改时，^([165])并且如果你将**`Initial states logged`**设置为**`yes`**，脚本将明确将其包含在评估中。一个**`no`**将忽略条目；**`histogram.cgi`**随后假定系统启动后的状态与重启前直接存在的状态相同.^([166])

**忽略重复状态**在状态长时间持续并因此反复产生相同结果时，会做出让步。如果你在这里设置为“是”，脚本将只评估一次而不是多次。

如果你选择 **`State types to graph:**** 中的 **`Hard and soft states`** 项，**`histogram.cgi`** 也会计算软状态。例如，如果一个服务在 **`retry_check_interval`** 设置为 **4** 时从 OK 变为 CRITICAL，那么 **`histogram.cgi`** 会计算总共四个结果，三个软状态和一个硬状态。如果你只评估硬状态，统计值评估为 1。如果错误被纠正，则没有软状态；因此，如果包含软状态在评估中，CRITICAL 的值通常大于 RECOVERY 的值。

## 16.2.12 在特定状态后过滤日志条目：**`history.cgi`**

**`history.cgi`** 脚本允许通过选择字段 **`State type options`**（如图 16-35 中的顶部右侧所示图 16-35) 选择性地从日志文件中提取某种类型（软或硬）的状态，并使用 **`History detail level for all hosts`** 提取特定事件（所有、所有与主机相关的、所有服务事件、仅主机恢复、仅主机下线等）。当调用 CGI 程序时，可以通过参数限制要显示的条目到个别主机、服务或主机或服务组。因此，命令

仅显示主机 **`sap-12`** 的日志文件条目。如果输出应限制到特定主机，则还需要指定服务描述：

选择主机和服务组的方式相同：

**`history.cgi`** 视图所显示的周期取决于日志文件的存档间隔。脚本始终引用存档文件的内容。如果你在配置文件 **`nagios.cfg`** 中将参数 **`log_rotation_method`** (A.1 主配置文件 nagios.cfg) 设置为 **`d`** 以进行每日存档，网页将显示一天的条目。使用箭头（如图 16-35 中的顶部所示图 16-35)，你可以上下滚动查看不同日期。

![history.cgi filters the information from the log file](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223912.png.jpg)

图 16-35. `history.cgi` 过滤日志文件中的信息

## 16.2.13 谁被告知了什么，何时？— **`notifications.Cgi`**

日志文件还提供了一个过滤视图：**`notifications.cgi:`** 它显示了所有已发送的消息。在这里，视图也可以通过右上角的选项字段限制到特定的消息组，如图 16-36：涉及所有主机的通知，关于处于关键状态的服务等。

![`notifications.cgi` 回答了谁在何时收到关于什么的消息的问题](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223914.png.jpg)

图 16-36. `notifications.cgi` 回答了谁在何时收到关于什么的消息的问题

如果你只想看到有关特定主机和服务的消息，你必须再次在运行 CGI 程序时使用参数来指定：

除了 **`host`** 和 **`service`**，你还可以选择特定的联系人，但选择主机或服务组是不可能的。

## 16.2.14 显示所有日志文件条目：**`showlog.cgi`**

CGI 程序 **`showlog.cgi`** 以原始形式显示日志文件，并添加了一些彩色图标以帮助你找到方向：一个红色按钮标记关键服务状态或 DOWN/UNREACHABLE 主机，一个黄色按钮标记 WARNING，一个绿色按钮标记 OK。其他按钮指的是信息条目或 Nagios 重启(图 16-37).

你在这里只有一个选项：按时间顺序。通常 **`showlog.cgi`** 首先显示最新的条目。如果你启用“旧条目优先：”（右上角）的复选框，则首先显示最旧的条目。

这里表示的周期也取决于归档方法：如果你每天归档一次，每个网页将只获得一天的数据。要访问其他日期的条目，你必须使用图片顶部的箭头浏览日志文件的各个归档文件。

![一个蓝色按钮标记信息条目，图表从红色变为绿色表示 Nagios 重启，带有绿色勾选背景的 GO 图标表示监控系统的重启](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223916.png.jpg)

图 16-37. 一个蓝色按钮标记信息条目，图表从红色变为绿色表示 Nagios 重启，带有绿色勾选背景的 GO 图标表示监控系统的重启

## 16.2.15 评估你想要的任何内容：**`summary.cgi`**

如果迄今为止引入的显示和选择选项不足以满足你的需求，你可以使用 **`summary.cgi`** 创建自己的报告，该报告生成图 16-38 中显示的选择对话框。**标准报告：**部分提供了一个快速总结，其中只能选择一种固定的报告类型。点击此按钮下方直接生成的报告。

第二部分更为复杂。**报告类型:** 字段，与 **最近警报** 报告类型一起，提供了最后 **`n`** 个单独事件的个别列表。数字 **`n`** 在选择对话框的 **最大列表项数:** 下进一步定义。**报告类型:** 也可以用来在单独的一行上显示所有事件，使用 **最近警报**，或者您可以选择显示统计信息，例如总体发生的事件数量、每个主机组的数量等，使用 **警报总数、按主机组划分的警报总数** 等。

一个特别有趣的报告类型是 **顶级警报生成者**：此类报告显示在报告期间造成最多麻烦的人的点击列表。

在 **报告期间:** 您可以从预定义的间隔中选择所需的报告期间（本周、过去七天、本月、上周、上个月等），或者您可以选择 **`自定义报告期间`** 并定义您选择的任何时间段。如果您忘记明确指定 **`自定义报告期间`**，CGI 程序将忽略您设置的日期，并选择当前在 **报告期间** 中输入的内容。

![summary.cgi 中参数的选择模板](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223918.png.jpg)

图 16-38. `summary.cgi` 中参数的选择模板

随后的报告期间细节根据主机、服务或其组、状态类型和/或单个状态（例如，仅处于 CRITICAL 状态的服务）进行筛选。在最后指定 **最大列表项数** 很重要：**`summary.cgi`** 总是只显示在此处指定的条目数。默认值有点小；如果您想显示所选期间的所有条目，您应将值输入为 **`0`**。此处可以明确给出的最大值是 999。然后，**创建摘要报告!** 按钮生成所需的报告（图 16-39）。

报告的标题包含报告期间和所做选择的详细信息。表格直接上方的细节很有趣：**显示最近的 25 条，共 3721 条匹配警报**表明选择标准匹配了总共 3721 条条目，但由于 **最大列表项数** 的限制，CGI 脚本只输出了最近的 25 条条目。

![由 summary.cgi 生成的个人报告](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223920.png.jpg)

图 16-39. 由 `summary.cgi` 生成的个人报告

## 16.2.16 随时间图形化跟踪：**`trends.Cgi`**

图形输出 **`trends.cgi`** (图 16-40) 提供了特定主机或服务何时发生状态的快速概述。选择特定的主机或服务后，可以定义一个周期，就像在 **`summary.cgi`** 中一样。状态由 **`trends.cgi`** 进行颜色编码，这使得概述更容易跟随。

CGI 程序的缩放功能是一个有趣的细节。如果你在特定部分的彩色区域点击，所选区域会根据右上角指定的缩放因子放大或缩小。负数输入（**`−1, −2, −3`** 和 **`−4`**）会扩展报告期而不是减少它。

![`trends.cgi` 表示状态的时序序列——这里以服务为例](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223922.png.jpg)

图 16-40. `trends.cgi` 表示状态的时序序列——这里以服务为例

* * *

^([150]) [`lists.sourceforge.net/mailman/listinfo/nagios-users`](http://lists.sourceforge.net/mailman/listinfo/nagios-users)

^([151]) 如果您一直按照本书中的安装说明进行。

^([152]) [`nagios-demo.netways.de/`](http://nagios-demo.netways.de/)

^([153]) [`www.netways.de/`](http://www.netways.de/)

^([154]) **`/usr/local/nagios/share/docs/tuning.html`**

^([155]) [`netways.de/Demosystem.1621.0.html`](http://netways.de/Demosystem.1621.0.html)

^([156]) 虚拟现实标记语言（VRML），版本 2.0/1997，用于描述虚拟“空间”。

^([157]) **`/usr/local/nagios/share/docs/cgis.html#statuswrl_cgi`**

^([158]) [`www.parallelgrafics.com/products/cortona`](http://www.parallelgrafics.com/products/cortona)

^([159]) 对于 Firefox，您需要手动安装，在安装过程中选择 **自定义** 而不是 **典型**，并在 **不支持的浏览器** 中指定浏览器的插件目录。

^([160]) [`cic.nist.gov/vrml/vbdetect.html`](http://cic.nist.gov/vrml/vbdetect.html)

^([161]) [`www.openvrml.org/`](http://www.openvrml.org/)

^([162]) [`freewrl.sourcef orge. net/`](http://freewrl.%20sourcef%20orge.%20net/)

^([163]) 无线接入协议。

^([164]) 无线标记语言包含 HTML 的一部分，其功能大大减少。

^([165]) 在 **`nagios.cfg;`** 中的参数 **`log_initial_state`**，见第 597 页。

^([166]) 这里的细微差别在于**`retain_state_information`**（参见 A.1 主要配置文件 nagios.cfg）。如果此参数设置为 0，Nagios 会忘记之前的状态。如果没有**`log_initial_state = yes`**，Nagios 在重启后会接受 OK 状态。

^([167]) 因此，Nagios 在将状态分类为“硬”之前会重复测试四次。

^([168]) 如果报告期间的事件数量小于**最大列表项数**中指定的数量，则报告将涵盖此期间发生的所有事件。

# 16.3 计划停机时间

在每个系统环境维护工作中，管理员会时不时地积累一些可以正常计划的任务，以便提前通知用户。Nagios 将这些维护窗口称为*计划停机时间*；管理员可以在由**`extinfo.cgi`**(图 16-4, 第 331 页)或对应的主机或服务组(图 16-17, 第 339 页)生成的信息页面上输入这些信息。在此过程中，**`extinfo.cgi`**利用了**`cmd.cgi`**(16.2.3 外部命令接口：cmd.cgi, 第 343 页)，该接口也可以选择性地调用：

打开单个主机的维护时间导入模板。**`cmd_typ`**的值在图 16-24 中总结，第 344 页。

提供了另一种记录维护时间段的方法的插件，这些插件与 CGI 程序类似，使用外部命令接口，但可以自动化，与交互式 Web 界面相比。这样的插件也可以在 Nagios Exchange 上找到.^([169])

对于计划中的停机时间，Nagios 阻止发送通知。这确保管理员不会被虚假警报淹没。当检查是否应该发送消息时，停机时间是列表中的第三项（图 16-2 显示了主机停机时间的输入模板（**`cmd.cgi?cmd_typ=55`**）。

![在 Web 界面中，使用此对话框记录主机的停机时间](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223924.png.jpg)

图 16-41. 在 Web 界面中，使用此对话框记录主机的停机时间

第一行定义了主机，而在第二行 Nagios 会自动输入您用于登录 Web 界面的登录信息。在 **注释** 关键字之后的输入字段中，您可以描述计划停机的原因。指定触发器可以显示它是否是通过其他条目间接生成的。在记录新的停机时间时，应将值保留为 **N/A**（即不可用，没有触发器）。

在接下来的四行中，您可以选择输入两种不同的停机类型：固定的（**类型：固定**）或可变的时间段（**灵活**）。第一种类型有一个固定的开始时间和结束时间。在这种情况下，Nagios 完全忽略 **灵活持续时间** 字段中的小时和分钟输入。

灵活的停机时间从指定时间段内首次事件发生时开始。从这一刻起，Nagios 根据此处指定的小时和分钟来规划停机时间。这可能会超过 **结束时间** 中指定的终点。

如果还有其他主机依赖于在 **主机名**：中指定的计算机（可能是因为涉及了路由器，其他主机对象已将其作为 **父对象** 进入），您可以使用最后一条项目，**子主机**：为所有子主机安排触发下线，将灵活的下线传递给所有“子主机”，**为所有子主机安排非触发下线** 对固定下线做同样处理，而 **对子主机不采取任何操作** 忽略依赖关系，这样 Nagios 就不会为除此处指定的主机以外的任何主机计划下线。

这种遗传行为如何在图 16-41 中生效，可以通过第 342 页上图 16-21 中所有计划下线的概述来展示。第一行包含刚刚描述的主机 **eli-saprouter** 的下线，其 **下线 ID** 为 **1**。由继承此超时引起的条目在 **触发 ID** 列中包含导致下线的 **下线 ID**：对于 **`sap-12`**，这是 **1**，因为 **`eli-saprouter`** 的维护也影响了此主机。

当计划下线时，Nagios 会同时生成一个注释条目，当这个时间段过去后，这个注释条目会自动被移除。这就是为什么在状态显示中会出现一个话泡。在下线期间，Nagios 会补充一个“呼噜声标志”，其目的是表示睡眠状态（图 16-42）。

![呼噜声标志 zzzzz 显示主机的下线开始](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223926.png.jpg)

图 16-42. 呼噜声标志 zzzzz 显示主机下线开始

## 16.3.2 服务下线

服务的下线与主机的下线在两个小细节上有所不同。除了主机名外，还必须包含服务描述，并且排除继承的可能性，因为服务没有相应的依赖关系。

主机宕机并不会自动影响到其上运行的服务。但既然主机宕机时这些服务也无法使用，建议您为所有依赖的服务规划相同的宕机时间。逐个服务地输入宕机时间可能会相当繁琐。使用主机组（**`cmd_typ=85`**）来做这件事会容易得多，如图 16-43 所示。使用这种方法，您可以仅用一个命令就为特定主机组中的服务定义宕机时间，以及更多：同时勾选**“也为主机安排宕机时间”**选项，将为该组中的所有主机定义相同的宕机时间.^([170])

![主机组中所有服务的单个宕机时间](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223928.png.jpg)

Figure 16-43. 主机组中所有服务的单个宕机时间

* * *

^([169]) [`www.nagiosexchange.org/Downtimes.38.0.html`](http://www.nagiosexchange.org/Downtimes.38.0.html).

^([170]) 至少在 Nagios 版本 3.0rc1 之前，复选框没有任何效果；在那里，您必须再次运行**`cmd.cgi?cmd_typ=84`**来分别输入主机的宕机时间。

# 16.4 主机和服务的附加信息

通过为主机和服务的扩展信息，您可以在 Web 界面中包含额外的信息，并使用合适的图标来改善其外观。在 Nagios 2.x 中，有两个单独的对象来存储这些信息：**`hostextinfo`**和**`serviceextinfo`**。从 Nagios 3.0 开始，附加信息直接定义在主机和服务对象中。尽管 Nagios 3.0 仍然评估**`hostextinfo`**和**`serviceextinfo`**对象，但在检查配置时会发出警告信息，并将这些对象视为过时。

计划在版本 4 之前完全从 Nagios 中移除这些信息。首次使用 Nagios 3.0 的用户应直接在主机和服务定义中指定以下介绍的信息，并从一开始就省略**`hostextinfo`**和**`serviceextinfo`**。如果您正在从 Nagios 2.x 迁移到 Nagios 3.0，您无需担心这一点，并且可以继续使用这些对象的现有实例。

为了使这一点更清晰，以下我们将使用术语**`hostextinfo`**和**`serviceextinfo`**对象*信息*。对于 Nagios 2.x，该术语指的是相同名称的*对象*，而对于 Nagios 3.0，它指的是**`host`**和**`service`**对象中给出的相应*细节*。参数本身在 Nagios 2.x 和 3.0 中是相同的。对象信息仅影响 Web 界面，对 Nagios 的功能没有影响。

## 16.4.1 扩展主机信息

主机对象信息允许您通过链接和图标以及坐标形式的增强功能，在 Web 界面中通过附加功能来增强主机的显示：

当这些参数被定义时，唯一必需的参数是主机的指定，即**`host_name`**；其余的都是可选的：

**`host_name`**

这是将要通过以下属性扩展其 Web 页面的主机对象的名称。

**`notes`**

使用此功能以获取**`extinfo.cgi`**在信息页面中考虑的附加信息。（上述示例中指定的条目，**Samba Primary Domaincontroller**，可以在 Linux 图标下方找到，图 16-44"))）

![extinfo.cgi 同样在此处显示了 Linux 图标（括号中的 Tux）的替代文本以及参数 notes 的附加信息（在替代文本下方)](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223930.png.jpg)

图 16-44. `extinfo.cgi`同样在此处显示了 Linux 图标（括号中的 Tux）的替代文本以及参数`notes`的附加信息（在替代文本下方）

**`notes_url`**

这是包含有关所讨论主机额外信息的（HTML）文件的 URL，您可以通过图标链接到该文件，该图标以红色略为打开的手册形式呈现，既在状态概述中（图 16-45"))。如果涉及的主机文档存储在内联网中，那么维护合同、热线电话号码、系统配置等只需鼠标点击即可获得。

参数可能包含一个绝对路径（从 Web 服务器的视角来看）或一个完整的 URL（**`http://.`**..）。

![此细节视图显示了 notes_url（打开，阅读手册）action_url（粉红色星星）和 icon_image（此处，Linux 企鹅）的图标](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223932.png.jpg)

图 16-45. 此细节视图显示了`notes_url`（打开，阅读手册）`action_url`（粉红色星星）和`icon_image`（此处，Linux 企鹅）的图标

**`action_url`**

这是一个指向为主机运行操作的链接，例如，通过仅点击鼠标即可执行 CGI 程序，如**`cmd.cgi`**。由于浏览器中的链接始终只是一个链接，因此这不必是一个命令，你也可以轻松地链接到另一个网页。在状态概览（图 16-45]]

**`icon_image_alt`**

如果浏览器没有显示图片（例如，对于阅读设备或点字输出设备），则会出现此图标的替代文本。从图标和图标文本细节中，Nagios 生成以下 HTML 代码：

**`vrml_image`**

这是在 3D 表示中象征主机图像的符号。允许的格式再次是 GIF、JPEG 或 PNG。你应该避免使用幻灯片，因为图像放置在一个立方体上，3D 界面中的透明部分可能会导致意外结果。

**`statusmap_image`**

这是**`statusmap.cgi`**（见 16.2.5 网络拓扑图：statusmap.cgi，第 346 页）在其拓扑图中表示主机的图像。Netways 的 Nagios 演示页面（^[172]），(图 16-28 在第 348 页）展示了很好的例子。

虽然允许使用 GIF、JPEG 和 PNG，但最好使用 GD2 格式，因为这样 Nagios 生成状态图所需的计算机时间更少。使用程序**`pngtogd2`**，该程序应作为大多数 Linux 发行版中 Thomas Boutell GD 库实用程序组件的一部分提供，可以轻松地将 PNG 文件转换。再次推荐 40×40 像素的图像大小。

**`2d_coords`**

此参数指定了拓扑图的用户定义布局的坐标。细节以像素为单位给出，原点**`(0, 0)`**位于左上角，并且值必须是正数：正 x 值表示从原点到右边的像素数，正 y 值表示从原点向下。

图 16-28 使用单个主机的固定坐标。如果状态图映射的布局与用户定义的不同，Nagios 会忽略**`2d_coords`**细节。

**`3d_coords`**

这些是 3D 表示的坐标。允许使用正负浮点数。**`(0.0,0.0,0.0)`**用作原点。在起始视图中，**`statuswrl.cgi`**调整 3D 图像的大小，以便所有现有主机都显示在屏幕上。因此，起始点在屏幕上的位置无法预测。

在 Nagios Exchange 中，**Logos and Images**类别中有大量成品图标。最好将它们解压缩到单独的子目录中，这样各个包就不会相互干扰：

**`imagepak-base.tar.gz`**包含一组基本的图标选择，你可以根据需要用其他包进行补充。与本章开头对象定义一样创建的**`base`**子目录也必须包含在内。

## 16.4.2 扩展服务信息

扩展服务对象信息与主机等效对象信息大致相同，所以我们只提一下差异。除了主机名外，**`service_description`**中的服务描述是必需的，但 2D（状态图）和 3D 视图的详细信息被省略：

与扩展主机信息相比，本例中的状态概述只显示在**`icon_image`**中指定的打印机图标，而不显示在**`notes_url`**和**`action_url`**中定义的两个图标。它们只会在**`extinfo.cgi`**生成的页面中显示，与扩展主机信息中的图标相同 (图 16-44"), 第 363 页)。

* * *

^([171]) 如果你一直遵循本书中建议的路径。

^([172]) [`nagios-demo.netways.de/`](http://nagios-demo.netways.de/)

^([173]) [`www.nagiosexchange.org/Image_Packs.75.0.html`](http://www.nagiosexchange.org/Image_Packs.75.0.html)

# 16.5 通过 Web 界面进行配置更改：重启问题

CGI 程序**`cmd.cgi`** (16.2.3 外部命令接口：cmd.cgi, 第 343 页)通过 Web 界面允许进行一系列当前配置的更改。^([174]) 以这种方式可以切换通知或主动检查等。

Nagios 不会将这些更改保存到相关的配置文件中，而是在单独定义的文件中记录当前状态，该文件使用**`nagios.cfg`**中的参数**`state_retention_file in nagios.cfg`** (参见 A.1 主配置文件 nagios.cfg). 但如果你在 Web 界面进行了许多更改后重启 Nagios 会发生什么？

Nagios 是否保留重启后所做的交互式更改，或者忘记它们，取决于配置文件**`nagios.cfg`**中的参数**`retain_state_informationin`** (A.1 主配置文件 nagios.cfg). 默认值**`0`**告诉系统忘记交互式更改。为了让 Nagios 记住这些更改，你必须设置

但这又带来了一个新的问题：在 Web 界面中设置的配置项不会优先于配置文件中的详细信息。如果你为某个服务更改了那里的**`active_checks_enabled`**参数，配置文件中参数的方向就会被忽略，因为当前文件中用**`state_retention_file`**定义的临时存储设置将始终“胜出”。这种行为会影响所有可以通过界面更改的外部命令参数，因此也可以通过 CGI 程序**`cmd.cgi`**进行更改。Nagios 的原版文档^([175])用红色星号标记了这些参数。

在此情况下，有两种方法可以提供解决方案：一方面，你可以在重启前短暂地将参数**`retain_state_information`** 设置为**`0`**。然后，Nagios 在重启时会忘记所有更改，并从头开始读取配置文件。这种方法仅在特殊情况下推荐，因为在大型环境中几乎不可能完成配置文件中的所有交互式更改。另一方面，你可以养成习惯，每次在配置文件中做出更改时，都在 Web 界面中再次进行更改。虽然这会稍微增加一些工作量，但永远不会存在丢失当前设置，甚至可能是非常重要的设置的风险。

主机和服务的定义中还有两个额外的参数提供了微调的机会：

**`retain_status_information`** 指定主机或服务的当前状态是否应该在 Nagios 重启后继续存在：**`1`** 表示系统会临时存储状态，而**`0`** 表示它会忘记状态。对于状态来说，**`1`** 是一个更合理的值，你应该只在有正当理由的情况下偏离这个值。

另一方面，**`retain_nonstatus_information`** 指的是描述**无**状态的全部信息。例如，这包括是否启用了活动检查，是否允许被动检查，或者是否需要通知管理员此对象的状态变化。当值为**`1`**时，系统会临时存储这些信息，并在重启后再次使用；而当值为**`0`**时，Nagios 在重启时会忘记当前设置，并从配置文件中读取设置。

* * *

^([174]) 当进行此操作时，CGI 程序会使用外部命令文件接口。

^([175]) Nagios 2.x: **`/usr/local/nagios/share/docs/xodtemplate.html`**，Nagios 3.0: **`/usr/local/nagios/docs/objectdefinitions.html`**

# 16.6 使用 Nuvola 风格的现代布局

到目前为止所描述的 Nagios Web 界面的经典视图仅使用了少数 CGI 配置选项。然而，几乎不可能将更多项目放入左侧的导航栏中，该导航栏的外观已经变得有些业余。一个解决方案是使用 Nuvola 风格，如图图 16-46 所示。

实际 CGI 程序的布局——此示例显示了右侧图片中带有**`status.cgi`**的服务问题视图——不仅色彩丰富，还有新的图标。在图片的左侧，你可以看到相当优雅的导航，并配以相应的图标。然而，真正的亮点是使用基于 JavaScript 的菜单树：可以通过鼠标点击打开和关闭各个条目（例如，**首页**、**监控**、**报告**和**配置**等部分）。

![Nagios 以 Nuvola 风格显示：此处显示的是服务问题](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223934.png.jpg)

图 16-46. 以 Nuvola 风格显示的 Nagios：此处显示的是服务问题

在安装 Nuvola 风格之前，必须备份 **`/usr/local/nagios/share`** 目录，以便如果你不喜欢新的设置，可以恢复旧设置。

NagiosExchange^([176]) 在印刷时的当前版本 1.0.3 是 2005 年 9 月的，但它与 Nagios 3.0 一起工作得非常好。内容被解压到一个合适的空目录中：

源文件包含在 Nagios 中已存在的文件（**`index.html, main.html`**）和目录（**`stylesheets, images`**），它们在安装过程中会覆盖原始文件。此外，Nuvola 风格包括一个新的子目录，**`side`**，其中包含树导航的实际 JavaScript 代码：

**`html`** 目录的内容简单地复制到 **`/usr/local/share`**，例如，使用 **`rsync:****

为了使新的导航出现，必须安装 **`sidel.html`** 文件。如果你只是将其重命名为 **`side.html`**，那么新版本的 Nagios 的 **`make install`** 将会再次覆盖它。因此，最好使用一个单独的索引文件，例如 **`index1.html`**，并从这个文件运行 Nagios Web 界面：

要完成这个任务，你需要将包含在 Nuvola 中的 **`index.html`** 文件复制到 Nagios 的 **`share`** 目录下，并命名为 **`index1.html:****

在 **`index1.html`** 文件中，你将 **`side.html`** 替换为 **`side1.html`**，以便调用 JavaScript 导航：

如果你认为像本书的作者一样，改变所有 CGI 程序的样式过于夸张，你可以只挑选改进的导航，并根据你的想法进行补充和重新设计。你不需要复制整个 **`html`** 目录，只需选择所需的文件即可：

你像我们刚才展示的那样更改 **`index1.html`** 文件，并检查 **`config.js:**** 中的 **`cgipath`** 变量

Nuvola 使用现成的菜单树库，商业版本称为 **`apytmenu`**，^([177]) 这里将不讨论，或者免费版本 dTree.^([178）。dTree 是 **`config.js (treeType = 'dtree'`**) 中的默认设置，并且完全包含在内。菜单和树的配置在 **`side`** 目录下的 **`dtree_data.js`** 文件中完成。可以用 **Home** 菜单作为例子简要解释其基本原理：

**`dTree`** 函数生成一个新的菜单树。它的参数是一个可自由选择的标识符（在这种情况下，**`general`**），用于引用树。**`general.header`** 设置菜单的标题为 **`Home`**。该函数还需要其他参数，包括一个图标（如图所示）。

第一个 **`general.add`** 调用将树仍锚定到待创建的状态。**`add`** 函数的前两个参数指的是要添加的节点编号，然后是其父节点编号。最顶层的节点称为 **`0`**，其下是 **`Documentation`** 条目，分配编号 **`1`**。如果 **`Documentation`** 本身要具有子节点，调用方式如下：

最后，**`document.write`** 构建整个菜单树。**`header`** 函数有以下参数：

**``*`title`*``**

包含标题，也可以设置为 URL。点击标题会打开指定的超链接。

**``*`icon`*``**

指定显示在标题前面的图形的路径。

**``*`height`*``**

指定标题下方背景的高度。随后，可以指定此背景的属性，要么作为背景图像，使用 **``*`backgroundimage`*``**，要么作为颜色（**``*`background colorw`*``**）。

最后，**``*`open`*``** 指定菜单树在开始时应该是打开（**`1`**）还是关闭（**`0`**）。指定文本值的参数用单引号括起来，数值参数直接书写，如示例所示。

**`add`** 函数以类似的方式调用：

**``*`id`*``** 是节点编号，**``*`pid`*``** 是要整合的条目所在的节点编号。**``*`name`*``** 定义菜单中节点的名称，**``*`url`*``** 定义要调用的超链接。**``*`title`*``** 和 **``*`target`*``** 可选地指定通过 *url* 调用的页面标题和显示页面的目标框架。这两个参数通常在这里保持为空；目标框架的默认值——对于 Nagios 来说是正确的——是框架 **`main`**。

**``*`icon`*``** 定义放置在菜单条目前面的迷你图形，**``*`iconOpen`*``** 可选地包含在条目打开时替代它的另一个图标。**``*`open`*``** 再次定义在启动时条目应该是打开（值 **`1`**）还是关闭（值 **`0`**），**``*`css`*``** 可选地允许替代 CSS 定义。对于所有可选参数，以下适用：如果它们在末尾，可以省略，但如果它们后面跟有其他详细信息，省略必须用一对单引号（**``*`''`*``**）标记。

包含的文件 **``*`dtree_data.js`*``** 包含四个广泛的菜单。如果你处理 JavaScript 的经验不多，最好保存此模板并逐步调整。如果出现错误，信息非常稀少且通常具有误导性，因此特别重要的是要准确记录从一步到下一步所更改的内容，以便能够快速隔离错误。

在这一点上，我们再次提到 dTree 主页^([179))，它提供了带有代码摘录的示例，以及编程接口的描述。

对于本章中描述的 Nagios Web 界面的可能性不满意的人应该看看 NagVis (第十八章，第 389 页)。这个插件允许自由定义的界面，并以令人印象深刻的方式补充了标准 CGI。然而，NagVis 的前提是安装数据库接口 NDOUtils (第十七章，第 375 页)，这稍微提高了安装门槛。

* * *

^([176]) [`www.nagiosexchange.org/75;252`](http://www.nagiosexchange.org/75;252)

^([177]) [`dhtml-menu.com/`](http://dhtml-menu.com/)

^([178]) [`www.destroydrop.com/javascripts/tree/`](http://www.destroydrop.com/javascripts/tree/)

^([179]) [`www.destroydrop.com/javascripts/tree/`](http://www.destroydrop.com/javascripts/tree/)

# 第十七章。使用 NDOUtils 的灵活 Web 界面

Nagios 2.x 和 3.0 的 Web 界面，如第十六章第 327 页第十六章中所述，对于拥有数百台主机的环境来说有一个关键缺点：它无法扩展。只要您只观察错误状态并密集地使用确认，您就可以使用基于 CGI 的 Web 界面管理得很好。但如果你试图显示数千个服务，你必须准备好等待——无论它们的状态如何。设置页面可能需要很长时间，然后实际工作几乎是不可能的。

Nagios 扩展与 CGI Web 界面有冲突，因为这直接评估 Nagios 内部，如对象配置、状态数据和日志文件。这意味着每个用于补充或替换 Web 界面的扩展都必须遵循这个逻辑。

解决这个问题的方案被称为 NDOUtils（*Nagios 数据对象工具*）。这些工具包括一些工具，它们将所有数据——从配置到事件和检查结果，再到历史记录——写入数据库，并通过统一的数据库模型提供。

将 NDOUtils 连接到 Nagios 的机制被称为*Nagios 事件代理*（NEB）。这为 Nagios 添加了一个模块化接口。NEB 在 Nagios 启动时加载扩展作为模块，这样模块就可以在不重新编译 Nagios 的情况下使用。这种方法类似于 Apache 模块，它们在需要时加载，并为 Web 服务器添加新功能。

NDOUtils 是 Nagios 未来基于 PHP 实现的 Web 界面的基础，预计从 Nagios 4.x 版本开始投入使用。然而，NagVis（见第十八章，第 389 页）已经提供了一个基于 NDOUtils 的替代 Web 界面。

# 17.1 事件代理

NEB 提供了一个基于共享库的 Nagios 与外部模块之间的接口。一个外部、应用程序依赖的模块提供了*回调函数*。Nagios 内核本身会为每个事件从加载的模块中调用相应的回调函数：如果没有匹配的函数，则不会发生任何操作。回调函数执行什么动作留给开发者想象：要么它自己执行某些操作，要么它将配置、状态和事件数据传递给外部应用程序，如图 17-1 所示。

对于数据传输到外部工具，可以使用 Unix 套接字或网络套接字，尽管也可以使用文件系统。应用程序进一步处理信息（例如，将其保存到数据库中，或通过 SNMP 陷阱发送消息，写入 syslog 等）。

![外部应用程序与加载的 NEB 模块通信](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223936.png.jpg)

图 17-1. 外部应用程序与加载的 NEB 模块通信

当回调函数被调用时，Nagios 会等待其完成。这意味着长时间的执行时间会阻碍系统。因此，回调函数应该始终将耗时的处理步骤留给外部应用程序，并限制于尽可能快地发送必要的信息。

构建事件代理模块应该留给经验丰富的程序员来做；普通人必须满足于使用现成的模块。NEB 模块可以通过主配置文件**`nagios.cfg:`**中的指令**`broker_module`**进行集成。

你是否将参数传递给模块取决于其具体实现。参数**`event_broker_options`**控制 Nagios 传递给事件代理模块的信息。使用选项**`−1`**表示所有信息，而值 0 则防止任何信息传递。通过 Nagios 源代码中的文件**`broker.h`**提供了一种选择性传递特定信息的替代方法：

表 17-1. 要传输到 NagVis 的数据

| 代理选项 | 值 | 说明 |
| --- | --- | --- |
| **`BROKER_PROGRAM_STATE`** | 1 | 程序是否是运行的 Nagios |
| **`BROKER_DOWNTIME_DATA`** | 512 | 计划维护期的详细信息 |
| **`BROKER_STATUS_DATA`** | 4096 | 所有检查的当前状态信息 |
| **`BROKER_RETENTION_DATA`** | 32768 | 为 Nagios 重启缓冲的数据 |
| **`BROKER_ACKNOWLEDGEMENT_DATA`** | 65536 | 确认已对主机和服务检查的错误状态进行的确认 |

在第十八章中介绍的 NagVis 1.1 需要表 17-1 中列出的信息。相应的数值总和为**`102913`**，因此可以修改**`event_broker_options`**如下，使其适合 NagVis：

关于事件代理的信息目前非常稀少。唯一描述接口的是来自 Nagios 2.0 的相当旧的文档和《Nagios 事件代理 API》^([180]）。

* * *

^([180]) [`www.nagios.org/developerinfo`](http://www.nagios.org/developerinfo)

# 17.2 数据库接口

作为事件代理概念的具体和实用应用，Nagios 数据对象工具，或称 NDOUtils，将所有配置和事件数据保存到数据库中。为了能够使用数据库，还需要进一步的应用程序。对于 Nagios 4.x 版本，这很可能是基于 PHP 的新设计的 Web 界面。在新闻发布时（当时 Nagios 3.0 尚未完成），这个 Nagios 版本是否会立即管理数据库中的所有配置数据仍然是一个猜测。

对于数据库，NDOUtils 目前仅支持 MySQL；计划使用 PostgreSQL，但在本章节中引入的 1.4 版本中尚未实现。

由于 NDOUtils 插件提供了一个相对简单易用的数据库接口，预计它们与 Nagios 3.x 的使用将会增加。NagVis（下一章从第 389 页讨论）已经提供了一个强大的基于 NDO 的前端，在许多情况下可以替代状态图，该图相对简单，在 16.2.5 网络拓扑图：statusmap.cgi 中从第 346 页进行了讨论。

图 17-2 展示了 Nagios 数据可以导入到 NDOUtils 数据库的各种路径。Nagios 的数据导出由事件代理模块 ndomod 处理。它可以选择操作 TCP 或 Unix 套接字，或将数据写入文件。如果 Nagios 安装在与 NDOUtils 数据库相同的计算机上，Unix 套接字接口将提供最佳性能和最高安全性（与 TCP 套接字不同，Unix 套接字不能从网络上访问）。查询最终将数据写入数据库的 ndo2db 守护进程的套接字。

使用文件的方法涉及实用程序 FILE2SOCK，它读取文件并通过 TCP 或 Unix 套接字将数据传递给 nd02db 守护进程。FILE2SOCK 还可以从标准输入读取数据。

![如何将 Nagios 数据集成到 NDOUtils 数据库中？](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223938.png.jpg)

图 17-2. 如何将 Nagios 数据集成到 NDOUtils 数据库中？

对于每个数据库，您需要恰好一个 ndo2db 守护进程。如果有多个不同的客户端可以访问套接字接口，它将启动多个进程来处理这些。

程序 LOG2NDO 是 NDOUtils 之一。它从 Nagios 2.x 和 3.0 读取日志文件，并将这些数据传递给 ndo2db 守护进程——要么直接通过套接字接口，要么通过必须单独用 FILE2SOCK 导入的文件。如果您想将此类历史数据集成到数据库中，您将需要提供大量的存储空间，因为日志文件在存档时被压缩，但在数据库中以未压缩的形式保存。因此，当使用数据库管理时，日志文件会占用更多空间。

FILE2SOCK 和 LOG2NDO 主要用于导入历史数据。NagVis 稍后需要的数据由 Nagios 在非常短的时间间隔内更新。由于这里不需要历史数据，我们将不再详细描述这两个程序。

# 17.3 安装

由于在使用 MySQL 4.0 版本时，NDOUtils 数据库的一些表中的**`INSERT`**语句存在问题，因此最好从一开始就使用 MySQL 5。^([181]) 除了 MySQL 服务器包（在 Debian 中为“Etch” **`mysql-server-5.0`**) 和在服务器包安装过程中通常自动选择的库之外，您还需要相应的开发包（在 Debian 中为“Etch” **`libmysqlclient15-dev`**)，以便能够编译 NDOUtils。

NDOUtils 与 Nagios 广泛集成的一个后果是版本必须与所使用的 Nagios 版本完全匹配。Nagios 和 NDOUtils 都在源代码中用宏**`CURRENT_OBJECT_STRUCTURE_VERSION`**定义它们的版本状态。该宏可以在 Nagios 源代码的文件**`./include/objects.h`**中找到（对于 Nagios 3.0，在本例中）：

NDOUtils 包包含两个包含文件，一个用于 Nagios 2.x，一个用于 Nagios 3.x：

如果 Nagios 的**`CURRENT_OBJECT_STRUCTURE_VERSION`**值与 NDOUtils 源代码中的两个值之一不匹配，NDOUtils 模块将卸载自己并拒绝执行。该过程在日志文件**`nagios.log`**中有记录，如下所示（两个不同的版本用粗体表示）：

## 17.3.1 编译源代码

最新版本的 NDOUtils 代码可以从 Nagios 网页^([182])下载，然后解压到合适的目录：

我们使用开关 **`--sysconfdir=/etc`** 启动 **`configure`** 运行，以便安装模块和守护进程的配置文件，以符合本书中的约定，即到目录 **`/etc/nagios`**。**`make`** 调用编译程序代码，然后手动完成安装：

对于 Nagios 2.x，守护进程 **`ndo2db-2x`** 和模块 **`ndomod-2x.o`** 被复制到 **`/usr/local/nagios/bin`** 而不是 3.x 版本。

## 17.3.2 准备 MySQL 数据库

在 MySQL 数据库系统中，我们需要一个存储用户 **`nagios`** 适当访问选项的数据库。为了设置这个数据库，我们首先以用户 **`root:`** 登录 MySQL。

开关 **`-p`** 确保请求密码。以下命令测试是否设置了密码：

如果由该登录触发的操作没有错误消息，则 **`root`** 密码缺失。这应该使用以下命令指定：

您应该用您自己的安全密码替换 **``*`secret`*``**。^([183)]

数据库（被命名为 **`nagios`**）使用 SQL 命令 **`CREATE DATABASE`** 创建，然后使用 **`GRANT:`** 给予所需的权限。

**`GRANT USAGE`** 命令定义了用户及其密码，并指定对他来说，在每小时查询次数、数据库连接次数或数据库更新次数上没有限制。对于密码，选择比 **``*`secret`*``** 稍微安全一些的密码，但必须以纯文本形式写在这里。**`GRANT USAGE`** 还没有给 **`nagios`** 数据库的表提供任何访问权限。这由第二个 **`GRANT`** 命令处理。通过 **`FLUSH PRIVILEGES`** 激活对 **`nagios`** 用户权限的更改。

NDOUtils 需要 **`SELECT`**、**`INSERT`**、**`UPDATE`** 和 **`DELETE`** 权限。对于仅从数据库中读取数据的 NagVis 和其他应用程序，**`SELECT`** 权限就足够了。

在下一步中，将生成表格，NDOUtils 将在此之后保存数据。在 NDOUtils 源代码的 **`db`** 子目录中提供了一个用于此目的的完成 SQL 脚本，并且只需要执行：

脚本应在所有情况下（即没有任何消息）正常运行。创建的表格可以使用 SQL 命令 **`show tables`** 显示。

各种发行版默认安装 MySQL 时会开启日志记录。与（通常是二进制）日志文件一起，可以复制或恢复数据库的当前状态。然而，与 NDOUtils 结合使用时，这些日志文件会迅速增长。如果您仅使用数据库进行 NDOUtils，您将只在罕见情况下需要此类工具，因此可以在 **`my.cnf`** 配置文件中注释掉所有 **`*log*`** 参数，并重新启动 MySQL——这次不进行日志记录。

## 17.3.3 升级数据库设计

由于 NDOUtils 正在积极开发中，因此不能排除对数据库结构的较大更改。对于升级，数据库设计可能也需要更改。NDOUtils 提供了一个脚本用于此目的，位于子目录 **`db`** 中的 **`upgradedb`**，它将自动调整表格：

该脚本检测现有的 NDOUtils 版本，并相应地调整表格。其中之一是，它使用 SQL 命令 **`ALTER TABLE`**，对于在上一节中创建的 MySQL 用户 **`nagios`** 来说，权限不足。因此，脚本需要以 MySQL 用户 **`root`** 的身份运行。

* * *

^([181]) 作者已测试版本 5.0.23，但也有报告称 NDOUtils 与 MySQL 4.1.x 版本成功兼容。

^([182]) [`www.nagios.org/download/`](http://www.nagios.org/download/)

^([183]) 关于 MySQL 安全管理的更多说明，可以在在线文档 [`www.mysql.org/doc/refman/5.0/en/security-guidelines.html`](http://www.mysql.org/doc/refman/5.0/en/security-guidelines.html) 中找到，也可能在随分发版提供的文档中找到，位于 **`/usr/share/doc/`**。

# 17.4 配置

NDOUtils 在三个不同的位置进行配置。文件 **`ndomod.cfg`** 指定了事件代理模块的设置。**`ndo2db.cfg`** 控制守护进程 **`ndo2db`**，它从代理接收数据并将其写入数据库。**`/etc/nagios/nagios.cfg`** 中的条目最终确保 Nagios 启动时加载事件代理模块 **`ndomod`**。

子目录 **`./config`** 中的 NDOUtils 源代码为两个配置文件中的每一个提供了一个模板。该命令

根据本书中使用的惯例，将这些复制到目录 **`/etc/nagios`**。

## 17.4.1 调整事件代理配置

**`ndomod.cfg`** 的模板几乎可以不变地使用；您只需调整到 **`var`** 目录的路径：

**`instance_name`** 指的是数据库中要使用的实例。如果您在数据库中只映射一个 Nagios 实例，则可以保持 **`default`** 设置。假设 Nagios 和 **`ndo2db`** 守护进程运行在同一个主机上，可以使用 Unix 套接字作为 **`output_type`**，其名称由 **`output`** 参数定义。**`tcp_port`** 仅用于 **`output_type=tcpsocket`**，因此被注释掉。

如果 **`ndomod`** 模块无法通过套接字接口释放数据（例如，守护进程刚刚重启），这些数据将暂时保存在文件 **`buffer_file`** 中。在 **`output_buffer_items`** 参数中要保存的条目数不应设置得太低。这里的一个经验法则是将所有定义的主机和服务的数量乘以五。这是一个经验值：当重新加载或 Nagios 重新启动时，NDOUtils 将每个主机和每个服务的起始状态写入数据库，以及所有计划的和已开始的检查。这些可能还会补充新的或仍在进行的检查的结果。

**`file_rotation_*`** 参数仅在 **`output_type=file`** 时需要，这需要使用额外的守护进程 **`FILE2SOCK`**。然而，出于性能考虑，建议您使用套接字接口而不是基于文件的接口。由于额外的守护进程，文件接口也使得配置更加复杂。

参数 **`reconnect_interval`** 和 **`reconnect_warning_interval`** 也适用于无法建立使用 **`ndo2db`** 守护进程的连接的情况。它们指定了 Nagios 多久尝试与他们建立联系，以及如果无法建立连接，日志文件中多久出现一次警告。这两个参数应保留为默认值。

## 17.4.2 配置数据库访问

对于 **`ndo2db`** 守护进程的配置文件模板，几乎没有需要调整的地方。除了套接字接口的路径外，还必须指定对数据库进行写访问的相关密码：

两个 **`ndo2db_*`** 参数指定了守护进程启动后运行的用户和组权限。**`socket_type`** 和 **`socket_name`** 必须设置为 **`ndomod.cfg`** 中的配置。 

当前可以指定的唯一数据库类型是 **`db_servertype`** 的 **`mysql`**；对于 **`db_port`**，通常输入 MySQL 的标准端口（**`3306`**）。在 **`db_name`** 中的数据库名称必须与在 **`CREATE DATABASE`** 命令中选择的名称匹配（在这种情况下，**`nagios`**），并且数据库用户和密码也必须以与设置数据库时相同的方式给出。在任何情况下都不应更改 **`db_prefix`** 参数的值，否则在 **`mysql.sql`** 脚本中创建的表的名称也必须进行调整。

以 **`max_*`** 开头的参数定义了 NDOUtils 数据在系统命令、计划事件、服务和主机检查以及事件处理程序中应在数据库中保留多长时间（以分钟为单位）。值 1440 对应于一天。如果您仅使用 NagVis 与 NDOUtils，则不需要更长时间。短间隔对数据库和硬盘都较为友好。

## 17.4.3 启动 **`ndo2db`** 守护进程

当一切配置完成后，首先手动调用**`ndo2db`**守护进程：

之后，建议您通过复制和修改分发中提供的脚本**`/etc/init.d/skeleton`**来创建一个 init 脚本。守护进程必须与 Nagios 版本匹配：**`ndo2db-3x`**与 Nagios 版本 3.x 一起工作，**`ndo2db-2x`**与版本 2.x 一起工作。启动后，您应该检查配置中指定的套接字是否存在：

如果在运行守护进程时出现**`Socket already in use`**消息，那么要么守护进程已经在运行，要么在守护进程停止时没有移除套接字**`ndo.sock`**。在这种情况下，您应该在重新启动之前手动删除它。

## 17.4.4 在 Nagios 中加载事件代理模块

为了使 Nagios 在启动时加载 NDOUtils 的事件代理模块，以下条目被添加到配置文件**`/etc/nagios/nagios.cfg:`**

在此示例中使用了 Nagios 版本 3.x 的模块；如果您使用的是 Nagios 2.x，则输入**`ndomod-2x.o`**。重新加载激活模块：

在重新加载后不久，所有主机和服务对象都应该记录在数据库中：

表**`nagios_objects`**包含所有对象，**`objecttype_id=2`**显示所有服务。或者对象类型**`1`**指代主机，**`3`**指代主机组，**`4`**指代服务组。关于表的完整描述可以在 NDOUtils 中包含的文件**`NDOUTILS DB Model.pdf`**中找到，该文件位于子目录**`./docs`**中。

* * *

^([184]) 关于事件处理器，请参阅第 619 页的附录 C（附录 C. 事件处理器）

# 第十八章. NagVis

NagVis^([185]) 是 Nagios 的一个插件，它将用户选择背景图像显示主机和服务状态。这必须是 PNG 格式；您可以选择使用地图、您自己的系统文档图、服务器室的照片或系统环境的示意图作为背景，如图图 18-1 所示。

通过 Web 界面，您可以在背景上放置任何您想要的对象。NagVis 根据对象的状态显示不同的图标：红色表示 CRITICAL 状态，黄色表示 WARNING，绿色表示 OK，灰色背景上的问号表示 UNKNOWN。如果设置了确认，则通过带有工人图片的绿色按钮表示。

主机和服务的图标不同；在默认模板中，主机图标是矩形的，而服务图标是圆形的。完成的 NagVis 显示——NagVis 将其称为 *地图*——在 图 18-2 中显示。NagVis 主页上提供了更多示例——例如使用地理地图或服务器室的照片作为背景。^([186)]

![作为 NagVis 模板的系统环境示意图](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223940.png.jpg)

图 18-1. 作为 NagVis 模板的系统环境示意图

除了主机和服务外，主机和服务组还可以集成到 NagVis 显示中，以及额外的地图。因此，可以使用地理概览图作为起始页面，每个监控位置的图标都链接到针对该位置的详细 NagVis 地图。

如果一个图标包含多个状态，例如主机和服务组，NagVis 会显示具有最高优先级的状态，其中 CRITICAL 的优先级高于 WARNING，WARNING 胜过 UNKNOWN，UNKNOWN 比确认得到更多关注，而 OK 是所有状态中优先级最低的。如果主机组中的任何主机处于 CRITICAL 状态，整个主机组都会相应地显示。

对于主机和主机组，NagVis 提供了选择仅考虑主机状态以确定显示状态，或者包括依赖于这些主机的服务（参见 18.1.2 初始配置）。在后一种情况下，如果主机的任何一个服务处于关键状态，则会显示一个红色的停止灯。

特别值得注意的是 NagVis 只评估硬状态的能力（参见 18.1.2 初始配置）。对于使用 Web 界面的常规工作，如果并非每个临时的软 CRITICAL 状态都立即生成红灯，这会非常有用。

![显示系统环境](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223942.png.jpg)

图 18-2. 显示系统环境

特别会让面向对象编程的粉丝感到高兴的是，NagVis 充分利用了面向对象的概念。例如，系统从全局配置继承默认值，用于单个地图和地图级别的设置，并将这些值传递给单个对象，同时始终可以选择在本地覆盖设置。这在很大程度上简化了配置，NagVis 还在图形编辑器（也称为 *Web 用户界面* 或 WUI）中指出了哪些设置是针对对象的，哪些是继承的（图 18-8 下发布；下面的描述指的是版本 1.3。

# 18.1 安装

NagVis 使用 NDOUtils 并用 PHP 实现。因此，除了 第十七章]) 根据发行版和使用的 PHP 版本，包名可能会有所不同。对于 Debian "Etch" 和 PHP5，您需要 **`libapache2-mod-php5, php5, php5-common, php5-gd`** 和 **`php5-mysql`** 包。

虽然在许多情况下它们被打包在同一台主机上，但 NagVis 不一定必须安装在 Nagios 和 NDOUtils 相同的计算机上。NDO 数据库的配置——NagVis 文档将其称为 *后端*——可以引用（如 18.1.2 初始配置，解压到您选择的目录中：

如果存在先前的安装，您应该首先备份它。然后，您将创建的目录（在我们的例子中，**`nagvis-1.3`**）以名称 **`nagvis`** 复制到 **`/usr/local/nagios/share:`**

重复的目录名称 **`nagvis`** 有时会导致混淆，但这是正确的：

**`/usr/local/nagios/share/nagvis`** 代表 NagVis 安装的根目录，而子目录 **`nagvis`** 包含 NagVis 应用程序及其配置。最后，子目录 **`wui`** 包含图形编辑器，它允许通过浏览器编辑 NagVis 地图。

目前，必须手动设置目录和文件的正确访问权限。为此，您首先需要确定 Web 服务器运行的用户的权限（也参见 1.2 编译源代码，第 39 页）：

第一个 **`grep`** 命令在 Web 服务器（在此情况下，Apache2）的配置文件中查找相应的用户，然后 **`id`** 命令搜索此用户的初始组。这可以在 **`gid=`** 指定之后找到。现在将根据这些权限设置访问权限：

在可以使用 Web 用户界面之前，您必须创建中央配置文件并确保只有经过成功认证后才能访问 NagVis。

## 18.1.2 初始配置

中央 NagVis 配置文件 **`config.ini.php`** 的模板可以在目录 **`/usr/local/nagios/share/nagvis/etc`** 中找到，只需重命名和修改即可：

命令 **`chown`** 和 **`chmod`** 确保为 Web 用户（在此处，**`www-data`**）及其组设置了正确的访问权限。

除了后端（即 NDO 数据库）的配置之外，包含的 **`config.ini.php`** 已经有可用的默认值。因此，以下描述仅限于介绍最重要的参数:^([188])

在 **`[global]`** 部分中，您可以使用 **`language`** 设置语言；默认为 **`english`**。`refreshtime` 定义浏览器中显示刷新的秒数。

部分 **`[defaults]`** 指定了从映射配置继承的默认值。如果需要，可以通过映射覆盖这些值。最好在这里定义大多数对象都相同的设置，以避免在对象定义中重复明确地定义它们：

**`backend`** 指定用作默认后端的 NDO 数据库。此名称可以是任何您喜欢的，但后端本身必须在单独的部分中定义（参见 18.1.2 初始配置）。如果您刚开始，最好保留提供的名称，**`ndomy_1`**。

参数 **`icons`** 定义了要使用的图标集，该图标集位于目录 **`./nagvis/nagvis/images/iconsets`** 中。包含四个集合：**`std_small, std_medium, std_big`** 和 **`folder`**。其他图标可以从 NagVis 主页下载，^([189]) 或者您可以自己创建它们.^([190])

设置 **`recognizeserivces=1`** 确保在确定整体状态时，包括伴随服务的当前状态。值 0 关闭此行为。

另一方面，**`onlyhardstates=1`**指示 NagVis 只考虑硬状态。默认值**`0`**也包括软状态。

**`[wui]`**部分允许为 NagVis 编辑器设置参数：

**`autoupdatefreq`**确定 Web 用户界面自动保存更改的频率（以秒为单位），而**`maplocktime`**指定在当前正在编辑的地图上进一步更改应被阻止的分钟数，从上次更改的时间起。这是为了防止多个用户同时编辑同一地图。

从文件系统（**`base`**）的角度以及从浏览器角度分别针对 NagVis 数据和 NagVis CGIs，NagVis 安装的路径在**`[paths]`**部分指定：

此处列出的默认值与上述标准安装相匹配。

后端配置，即访问 NDO 数据库的配置，位于文件底部：

本节名称必须包含在`[defaults]`下通过**`backend`**参数指定的名称，根据模式**`[backend_`****``*`value_of_backend]`*``**。默认值此处为**`ndomy_1`**。如果**`backend`**参数值与定义的任何后端部分不匹配，NagVis 将拒绝工作。

**`backendtype`**定义后端类型，目前**`ndomy`**——基于 MySQL 的 NDO 数据库——是唯一可能的值。

**`dbhost`**和**`dbport`**指定数据库访问的主机名或 IP 地址以及相应的 TCP 端口。**`dbname`**包含 NDO 数据库的名称，而**`dbuser`**和**`dbpass`**提供了访问的用户名和密码。

默认定义的**`dbprefix`**和**`dbinstancename`**值适用于 NDOUtils 标准安装。假设你没有在文件**`ndomod.cfg`**（见 17.4.1 调整事件代理配置第 384 页）中更改参数**`instance_name`**，以及在文件**`ndo2db.cfg`**（见 17.4.2 配置数据库访问第 385 页）中更改**`db_prefix`**，你可以使用此处给出的值。

你应该特别注意的一个参数是**`maxtime-withoutupdate:`**。这定义了允许 Nagios 状态更新的秒数。如果此处指定的超时时间被超过，NagVis 假定数据已过时，并将其显示为错误。如果 NagVis 访问分布在多个服务器上的 NDO 数据库，服务器之间的时钟时间必须相互同步，否则如果 NagVis 遇到大于**`maxtimewithoutupdate`**秒的时间差，它将拒绝工作。

在这一点上，我们将提到另一个涉及 NDO 数据库与 NagVis 之间数据交换的问题：NagVis 评估当前程序状态。然而，在 3.0b1 之前的 Nagios 版本中，它仅在夜间日志文件更改后将其写入 NDO 数据库。从 3.0b1 版本开始，Nagios 每五秒更新一次状态，这样 NagVis 总是有最新的信息。

## 18.1.3 用户身份验证

NagVis 要求用户进行身份验证。如果没有用户身份验证，它将只显示错误消息.^([191])

如果 Nagios 的**`share`**目录不可用于身份验证，例如在 1.5.1 设置 Apache 中的 Apache 配置中，您应该在 Apache 配置文件**`/etc/apache2/conf.d/nagios`**中进行更改。认证数据最好从 CGI 目录中获取（参见第 47 页的 1.5 配置 Web 界面）。

![在点击显示的图形后，将出现菜单](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223944.png.jpg)

图 18-3。在点击显示的图形后，将出现菜单

* * *

^([185]) [`www.nagvis.org/`](http://www.nagvis.org/)

^([186]) [`www.nagvis.org/screenshots`](http://www.nagvis.org/screenshots)

^([187]) 如果在 NagVis 配置文件**`config.ini.php`**（参见 18.1.1 安装源代码）中将参数**`usedgdlibs`**设置为**`0`**，则可以不使用 GD 库来管理。

^([188]) 完整的文档可以在[`www.nagvis.org/docs/1.3/nagvis_config_format_description`](http://www.nagvis.org/docs/1.3/nagvis_config_format_description)找到。

^([189]) [`www.nagvis.org/downloads`](http://www.nagvis.org/downloads)

^([190]) 相应的指南可以在[`www.nagvis.org/docs/extending/iconsets`](http://www.nagvis.org/docs/extending/iconsets)找到。

^([191]) FAQ 条目[`www.nagvis.org/docs/general/faq#how/to/run/nagvis/without/authentication/`](http://www.nagvis.org/docs/general/faq#how/to/run/nagvis/without/authentication/)描述了在不进行身份验证的情况下使用 NagVis 的方法，但出于安全考虑，您应该避免这样做。

# 18.2 创建 NagVis 地图

通过 URL [`nagiosserver/nagios/wui/index.php`](http://nagiosserver/nagios/wui/index.php) 访问 NagVis 配置界面。在这里，您将**``*`nagiosserver`*``**替换为您自己的 Nagios 主机名（图 18-3 显示了起始页面）。

它通过在您点击右键鼠标按钮时打开的菜单来操作。对于将 NagVis 菜单与其自己的菜单叠加的浏览器，第二次右键单击鼠标按钮将导致浏览器菜单消失。

如果您没有可用的 PNG 格式的合适背景图形，您可以通过菜单项**管理 | 背景**（如图图 18-4

图 18-4。创建一个新的空背景

此图像以原始大小显示在屏幕上，即未缩放。为了避免滚动，它不应太大，适当的大小取决于屏幕分辨率，并考虑可能的窗口边框。

之后，图像大小只能有限度地更改：尽管您可以随时上传或创建背景图像，但已经放置的对象不会受到背景大小或其他特性的任何更改的影响，因此它们可能无法正确地适应新的背景图像。此时唯一的选择是重新定位所有对象。最佳方法是首先在最终环境中仅使用少数几个对象进行实验，然后再设置广泛的地图。

![如果地图图标集的条目为空，NagVis 将使用中央配置的默认值。](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223948.png.jpg)

图 18-5。如果地图图标集的条目为空，NagVis 将使用中央配置的默认值。

您现在为生成的或上传的图像创建一个新的地图。通过菜单项**管理 | 地图**（图 18-3 直接调用它。

![通过图形界面插入对象](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223950.png.jpg)

图 18-6. 通过图形界面插入对象

在 图 18-5 中创建的地图的 **``*`mapname`*``** 为 **`Test`**。在地图本身中，你现在可以使用鼠标右键插入对象（见 图 18-6). 对象可以是图标、线条或特殊对象。图标和线条代表主机或服务的当前状态，也可以代表整个主机或服务组。图标只能反映地图的整体状态。特殊对象是表示无状态对象（例如，也可能是图标）或文本框的图形，这些文本框也可以提供超链接。

要插入主机组，请在菜单中选择 **添加对象 | 图标 | 主机组**。然后，将鼠标放在所需位置，并用鼠标左键定义图标的目的地（位置可以在以后更改）。

完成此操作后，将打开一个对话框，如图 18-7 所示。条目 **backend_id** 可以保持为空，此时 NagVis 将使用中央配置文件 **`config.php.ini`** 中的 **`backend`** 参数的值。在 **hostgroup_name** 下拉菜单中，NagVis 允许您从所有定义的主机组中选择。

可以通过输入数值或使用鼠标来根据 **x** 和 **y** 坐标定位图标。对于简单的图标，点 (x, y) 对应于中心，对于线条对应于起点或终点。z 坐标仅在图标重叠时使用。值 **`0`** 描述的是后面的底层图像，并保留用于背景，而具有最高 **z** 值的对象就在最前面。如果插入对象时显式地留空 **z** 坐标，它将自动接收值 **`1`**。

![在图形界面中定义主机组](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223952.png.jpg)

图 18-7. 在图形界面中定义主机组

参数 **`recognize_services`** 允许覆盖 **`config.ini.php`** 中的 **`recognizeservices`** 设置（见 18.1.2 初始配置)，而 **`only_hard_states`** 对参数 **`onlyhardstates`** 执行相同的操作（18.1.2 初始配置）。

以这种方式插入的对象始终以所选图标集中的 OK 图标的形式出现在图形编辑器中；Web 界面不考虑其实际状态。

如果将鼠标移至图标上，将打开一个悬停菜单，如图图 18-8 所示。它清楚地区分了哪些设置是继承的，哪些是在对象中直接指定的。如果您点击那里的**更改**链接，可以再次更改设置。

![如果将鼠标移至插入的对象上，将打开一个悬停菜单](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223954.png.jpg)

图 18-8. 如果将鼠标移至插入的对象上，将打开一个悬停菜单

当您的工作完成时，不要忘记通过上下文菜单中的**保存**（见第 396 页的图 18-3）保存您的更改）。然后，**在 NagVis 中打开地图**菜单项将带您进入完成后的视图，现在它确实显示了实际状态。

在图 18-9 中，已为主机组图标添加了一个文本框。在此文本框下方显示的字段是一个悬停菜单，当鼠标移至对象上时，它会显示关于对象及其状态的信息。本例显示，主机组中的两个主机显示为“不正常”状态，并且这已经通过确认得到了证实。

![最终视图中带有文本框和悬停菜单的对象](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223956.png.jpg)

图 18-9. 最终视图中带有文本框和悬停菜单的对象

完成的地图可以通过 URL 直接调用[`nagiosserver/nagios/nagvis/nagvis/index.php?map=mapname`](http://nagiosserver/nagios/nagvis/nagvis/index.php?map=mapname)。

## 18.2.1 以文本形式编辑配置

NagVis 将地图的整个配置存储在文本文件中，这些文件也可以使用文本编辑器进行编辑。这些文件位于目录**`/usr/local/nagios/share/nagvis/etc/maps/`**中。如果您使用的是已知栅格的背景图像，您可以在 WUI 中插入多个对象，并使用刚刚确定的坐标在编辑器中继续编辑地图。这就是图 18-2 中显示的地图是如何创建的。背景图像（图 18-1）是用 OpenOffice 创建的，以便获得可重复的栅格；OpenOffice 绘图随后导出为 PNG 文件。

文本文件的配置选项，总体来说非常广泛，已在在线文档中描述.^([192])

## 18.2.2 将 NagVis 地图添加到 Nagios Web 界面

NagVis 地图也可以集成到 Nagios Web 界面中。图 18-10 显示了在**`index.html`**页面添加了第三个框架之后的情况，该框架将一个 32 像素高的地图绑定在主窗口下方。无论管理员当前在做什么，最重要的状态（在这里是主机组）总是直接显示，并且可以通过单次鼠标点击访问。使用 NagVis 时，你的用户界面梦想没有限制！

![NagVis 地图作为 Nagios Web 界面中的“脚注”](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223958.png.jpg)

图 18-10. NagVis 地图作为 Nagios Web 界面中的“脚注”

* * *

^([192]) [`www.nagvis.org/docs`](http://www.nagvis.org/docs)

# 第十九章. 性能数据的图形显示

当 Nagios 快速且选择性地向管理员报告发生的问题时，它基本上只能区分 OK 状态和错误状态，从而避免了管理员收到有关有问题的服务和主机的信息洪水。在一段时间内测量值的图形显示不能集成到这种“交通灯方法”中，但可以通过第三方软件实现。Nagios 支持通过为此创建的接口进行外部处理值。通过它处理的数据在 Nagios 术语中被称为*性能数据*。

Nagios 有两种不同类的性能数据。第一类是 Nagios 内部性能数据，包括测试性能时间统计以及实际测试时间与计划时间之间的差异（*延迟*）。第二类包括插件与测试结果一起传递的性能数据。这包括插件可以测量的所有内容：响应时间、硬盘使用情况、系统负载等。这些都是管理员感兴趣的事情，这也是为什么本书专注于如何处理它们。

Nagios 提取这些数据，要么将其写入文件以便其他程序处理，要么直接传递给在每次服务或主机检查之后运行的第三方软件。

# 19.1 使用 Nagios 处理插件性能数据

只有当相应的插件以预定义的格式提供时，服务检查和主机检查提供的性能数据才能被处理。如图所示，使用**`check_icmp`**插件(6.2 使用 Ping 进行可达性测试, 第 108 页)，它以**`|`**符号开头，并且在 Web 界面中不显示：

这种标准化形式在大多数插件中仅在版本 1.4 之后提供.^([193]) 性能数据本身由以下形式的一个或多个变量组成：

变量 **``*`name`*``** 可以包含空格，但此时它必须被单引号包围。等号之后首先是作为整数或浮点小数的测量值，可以带或不带单位。可能的单位有 **`%`**（百分比）、**`s`**（秒）、**`B`**（字节大小）或 **`c`**（计数器，一个增量计数器）。

此后，由分号分隔，接着是警告和临界限制，然后是最小和最大值。插件可以省略百分比值。您也可以为最小/最大值、警告或临界限制指定 **`0`**，如果不存在此类阈值值。如果有多个变量，它们可以用空格分隔，如 **`check_icmp`** 示例所示。然而，与此相反，最后的指定不应以分号结束，根据开发者指南。

## 19.1.1 模板机制

Nagios 有两种处理性能数据的方法：要么系统使用一个 *模板* 将数据保存到文件中，要么执行一个外部命令。如果您只想将数据持续写入日志文件，模板过程配置起来相对容易一些。

为了使 Nagios 能够处理所有性能数据，该参数

必须设置为 **`1`**。Nagios 将主机或服务性能数据写入的文件由参数 **`host_perfdata_file`** 和 **`service_perfdata_file:`**

如果 **`host_perf data_file`** 被注释掉，如本例所示，Nagios 不会保存任何主机检查的性能数据。但鉴于它们仅在所有服务检查失败时才使用，主机检查的本质在于它们只提供零星且不规律的数据。这就是为什么在大多数情况下不值得评估它们的原因。

**`*_perf data_file_template`** 参数定义了输出格式。上面显示的定义，**`service_perfdata_file_template`**，以以下模式提供（单行）日志文件条目：

每一行以一个 **`[SERVICEPERFDATA]`** “戳记”开始，后面跟着测试时间（以纪元秒 **`($TIMET$)`** 表示），主机名和服务描述（**`$HOSTNAME$`** 和 **`$SERVICEDESC$`**），Nagios 进行测试所需的时间（**`$SERVICEEXECUTIONTIME$`**），以及性能计划时间和实际时间之间的延迟（**`$SERVICELATENCY$`**），每个值之间用制表符分隔。

然后 Nagios 将 Web 界面的输出写入日志文件（**`$SER-VICEOUTPUT$`**），最后写入实际性能数据（**`$SERVICEPERF-DATA$`**）。参数定义中的**`\t`**确保日志中的各个细节通过制表符分隔。使用**`*_perfdata_file_mode`**参数，您可以定义 Nagios 是将数据追加到现有文件（**`a`**）还是覆盖现有文件（**`w`**）：

这适用于可以读取（之前已设置）命名管道数据的程序。这种方法提供了更好的性能，并且不需要硬盘上的任何空间。然而，如果处理软件没有运行，数据可能会丢失：Nagios 会尝试一段时间继续写入管道，但如果数据无法读出，则会超时并终止此过程。

从日志文件读取的程序通常会在之后删除它，以防止文件系统溢出。如果程序没有检索任何数据，文件会迅速增长，但只要文件系统还有空间，就不会丢失任何数据。

最好将外部评估软件作为永久服务运行。但您也可以配置 Nagios，使其定期触发程序进行进一步处理：

使用**`*_perfdata_file_processing_interval`**参数，您设置一个秒数间隔，在此之后 Nagios 将定期运行相应的**`*_perf data_file_processirLg_command`**。此命令被定义为正常的 Nagios 命令对象：

只要外部软件本身负责处理性能数据文件，您就无需使用**`*_perf data_file_processing_*`**参数。

## 19.1.2 使用外部命令处理性能数据

作为模板方法的替代方案，Nagios 还可以直接调用一个命令，该命令接管数据的进一步处理。这是在每个测试结果之后直接进行的；因此，在每个单独的检查之后，都会启动一个外部程序。如果您有大量需要检查的服务，这可能会根据软件的不同而显著降低性能。

命令本身是通过**`process_perfdata_command`**参数定义的，而不是通过**`perfdata_file`**参数：

与服务性能数据相同，您还可以使用**`host_perfdata_command`**参数处理主机检查的结果。**`process-service-perfdata`**本身再次指的是一个正常的 Nagios 命令对象：

这将打开外部程序，并将必要的信息作为参数传递给它。这应包括至少最后一次服务检查的时间戳（**`$LASTSERVICECHECK$`**）、主机名（**`$HOSTNAME$`**）、服务描述（**`$SERVICEDESC$`**），以及实际的服务性能数据（**`$SERVICEPERFDATA$`**）。分隔符取决于使用的程序：此示例使用**`||`**，这是 Nagiosgraph 程序使用的分隔符。

* * *

^([193]) 一些工具，如 Nagiosgraph 和 NagiosGrapher，利用了剩余文本通常也包含性能数据的事实。如果它们相应地配置，它们能够提取其中包含的性能数据。这样，它们可以进一步处理不符合标准格式的数据。

# 19.2 使用 Nagiosgraph 在 Web 上创建图表

使用来自 [`nagiosgraph.sf.net/`](http://nagiosgraph.sf.net/) 的程序 Nagiosgraph，插件提供的性能数据可以在 Web 界面中以时间顺序的形式以图形方式显示。该软件由两个 Perl 脚本组成。脚本 **`insert.pl`** 将 Nagios 性能数据写入循环冗余数据库，这是一个环形缓冲区，其中最新数据会覆盖最旧数据^([194])。这种方法的优点是所需空间小，这可以在事先定义。

这个技巧包括根据数据的不同年龄以不同的分辨率保存数据：较旧的数据以较低的分辨率（例如，每天一个测量值），当前数据以较高的分辨率（例如，每五分钟一个测量值）。在设置数据库时，您还定义了数据保留的时间长度。这从一开始就定义了空间需求。

假设 Nagiosgraph 检测到性能数据，当它首次出现时，程序将为每个新服务创建一个单独的循环冗余数据库。包含的 **`map`** 配置文件仅描述了一些服务，因此通常需要一些手动工作——以及基本的 Perl 知识。

第二个 Nagiosgraph 脚本 **`show.cgi`**，一个 CGI 脚本，以动态 HTML 页面的形式表示数据库中的信息。为此，它（在配置完成后）以以下形式运行

Nagiosgraph 然后为所需服务显示四个图表（每日、每周、每月和年度摘要）。

## 19.2.1 基本安装

安装在 Linux 发行版中的 RRDtool 软件包是 Nagiosgraph 的先决条件。或者，您可以从 [`www.rrdtool.org/`](http://www.rrdtool.org/) 获取当前源代码。出于性能考虑，建议您还安装包含的 Perl 模块 **`RRDs`**。

建议将 Nagiosgraph 的 tar 文件解压缩到目录 **`/usr/local/nagios`**：

**`insert.pl`** 提取 Nagios 传输的数据并将其插入到 RRD 数据库中。如果该数据库不存在，则脚本将创建它。或者，**`insert_fast.pl`** 可以承担这项任务。此脚本使用 Perl 模块 **`RRDs`**，这比每次调用外部程序 **`rrdtool`**（这是 **`insert.pl`** 所做的）要高效得多。

另一个名为 **`testentry.pl`** 的 Perl 脚本可以帮助您测试自己的 **`map`** 条目。但既然您必须直接将它们写入此文件，您也可以更改 **`map`** 文件本身（如下所示）——前提是您已经创建了备份副本。CGI 脚本 **`testcolor.cgi`** 更像是一个开发者遗留在包中的工具，而不是对用户有任何帮助的工具。

除了已经提到的 **`map`** 配置文件外，还有一个名为 **`nagiosgraph.conf`** 的第二个配置文件，并且其路径必须在 **`insert.pl`**（或 **`insert_fast.pl`**）和 **`show.cgi`** 中正确定义，因此建议您检查这一点：

## 19.2.2 配置

### 配置文件 **`nagiosgraph.conf`**

所有其他相关路径——例如到 **`map`** 文件和到 **`rrdtool`** 的路径——都在 **`nagiosgraph.conf`** 中调整：

Nagiosgraph 在 **`rrddir`** 目录中创建 RRD 数据库。在这里，用户 **`nagios`** 必须有写权限，而以该用户的权限运行的 Web 服务器用户必须有读权限：

对于这两个用户都需要写访问权限的日志文件（Web 用户因为 CGI 脚本也会将信息记录到日志文件中），也是至关重要的：

Nagiosgraph 的详细程度可以通过 **`debug`** 调整。可能的调试级别在包含的配置文件中有文档说明：**`2`** 表示“错误”，“**4**”表示“信息”——在这里 Nagiosgraph 已经非常详细，你必须注意文件系统不要溢出。除了调试目的（例如设置系统时）外，最好选择 **`2`**。

使用 **`colorscheme`**，它可以接受从 1 到 8 的值，你可以影响图表中的颜色数量——最好是尝试不同的选项，看看哪个配色方案最适合你的个人品味。

### Nagios 配置

Nagiosgraph 直接从 Nagios 抓取性能数据。因此，**`nagios.cfg`** 不需要任何 **`*_perfdata_file_*`** 参数。

**`process_performance_data`** 开启了性能数据的处理；**`service_perfdata_command`** 指向包含外部命令的 Nagios 命令对象：

参数 **`command_line`** 的定义必须写在一行中（不使用反斜杠 **`\`**），就像通常一样。

为了使 CGI 脚本可以直接从 Nagios Web 界面运行，定义了一个 **`serviceextinfo`** 对象：

如果在 **`icon_image`** 中定义的图形位于目录 **`/usr/local/nagios/share/images/logos`** 中，Web 界面将所有主机的 **`PING`** 服务在状态显示中标记为这个。在这里可以看到 show.cgi 的强大之处：正是因为这个脚本明确地用主机和服务名称调用，才可能定义像上面的定义。除了单个主机名称外，您也可以指定一个主机组，或者，就像这个例子中一样，一个 **`*`**。这个要求是 PING 确实被定义为每个主机的服务。 

**`$HOSTNAME$`** 宏随后自动插入适当的主机。因此，对于特定服务类型（必须在所有主机中具有相同的服务描述）的附加信息，只需一个单一的定义即可满足。

### Apache 配置

为了使 Apache 网络服务器能够接受 CGI 脚本，创建了一个 **`Script-Alias`**，例如：

此条目最好放在 1.5 网络界面的配置（第 47 页）中讨论的配置文件 **`nagios.conf`**。只有在重新加载 Apache 之后，才能从 19.2 使用 Nagiosgraph 的网络图表 中指定的 URL 运行 CGI 脚本。

### 对 map 的调整

根据服务类型，循环冗余数据库也可能保存多个测量系列，这些系列可以通过 CGI 脚本单独请求：

这里使用的数据库包含至少三个不同的测量系列，前两个系列在一张图中一起显示，而第三个系列则在单独的图中显示。显示在一起和显示分开的内容取决于标准化。在同一个图中显示硬盘的百分比负载和绝对字节数没有太大意义，因为 Y 轴只能有一个刻度。在这里，最好在一张图中显示百分比值，在另一张图中显示绝对字节数。另一方面，可以在一张图中显示系统负载的各种平均值（一分钟、五分钟和十五分钟）。如果您省略所有 **`db`**= 规范，Nagiosgraph 总是会在一张图中显示一个服务的所有测量值。

个体数据库和测量值显示的内容由 **`map`** 文件定义。要了解其中包含的指令如何影响数据的提取，只需将调试级别切换到 **`4`** 并查看日志文件 **`nagiosgraph.log`** 中的输出。每次插入函数运行时，Nagiosgraph 会重新读取配置文件，因此这不会引起任何类型的重置。

在以下日志文件摘录中，三个点标记了我们为了清晰起见不会打印的部分：

输出来自 **`check_icmp`** 插件。主机名、服务描述、性能数据（**`perfdata:`**）和标准输出行（**`output:`**）各自占一行。在性能数据中，插件使用变量 **`rta`** 宣布 *往返平均*，并使用 **`pl`**（*数据包丢失*）表示丢失的数据包数量。

**`map`** 文件包含 Perl 指令，用于过滤这些输出并提取相应的数据（如果有匹配项）。每个指令都以一个搜索指令开始：

经典的 Perl 搜索函数由两个连续的斜杠 **`/`** 组成，其中包含一个正则表达式形式的搜索模式。圆括号对包围的部分模式，通过这种方式找到的文本可以通过变量 **`$1`**、**`$2`** 等访问。

因此，第一个括号中的模式匹配单个数字（**`\d`**）或点，^([197]) 并且下一个 + 状态表示可以有多个（或一个也没有）。然而，在第二个圆括号中，允许一个或多个数字，但不能有点。具体来说，**`$1`** 提供响应时间的数值，**`$2`** 提供百分比中的数据包丢失。

**`map`** 文件中的完整指令使用 **`and`** 操作符链接两个 Perl 语句：

如果第一个——搜索函数——成功，那么轮到 **`push`** 语句。它将方括号中跟随的表达式添加到数组 **`@s`** 中。指令以分号结束。如果搜索函数没有提供结果，则 **`map`** 指令不会在 **`@s`** 数组中保存任何条目。要包含在数组中的表达式具有以下格式：

Nagiosgraph 数据库文件的文件名由主机名、服务描述和数据库名组合而成，例如，**`linux01_PING_ping.rrd`**。数据库名称的期望字符串应输入到 **`map`** 文件中（在这种情况下，**`ping`**）代替占位符 *db-name*。

数据源名称可以自由选择，但应包含存储在此处的数据的指示，例如，**`rta`** 表示响应时间或 **`losspct`** 表示丢失的包的百分比。

您指定的 *类型* 由 RRD 工具确定。**`GAUGE`** 表示简单测量值，它们以原样显示。Nagiosgraph 作者 Soren Dossing 推荐使用 **`DERIVE`** 处理计数器，例如在查询网络接口上的数据包计数器。计数器增量增长，当它们溢出时，从零开始。这里感兴趣的是两个时间点之间的差异。如果指定数据源类型 **`DERIVE`**，RRD 数据库将自动确定这些值。

数据库名称、数据源和类型应始终在 **`map`** 文件中以单引号放置，以防止与 Perl 中保留的关键字发生名称冲突。

测量值本身是通过 Perl 方法确定的，占位符 *value* 被相应的指令替换。在最简单的情况下，您可以使用 **`$1`**、**`$2`** 等等（见上面的示例）来接管性能数据中找到的值，或者通过乘以 1024 或计算百分比来计算新值：

第一条记录评估了 Windows 服务器上**`check_nt`**（见 20.2.1 NSClient，第 476 页）对硬盘空间的查询。性能数据还包含除**`$1`**中的占用空间外，还有**`$5`**中的数据载体大小。这可以用来计算可用百分比（**`freepct`**）和已用百分比（**`usepct`**）。

第二个示例通过将指定的 MB 数空闲硬盘空间乘以 1024²来转换成字节，评估 Unix 主机上通过**`check_ disk`**获得的数据。关键和警告限制始终保持不变，这导致出现水平线，如图 19-1 所示：下方的线在 12.1 GB 处代表警告限制，中间的线代表当前负载，上方的线在 18.1 GB 处，代表关键限制。每个单独的图表的键列出了最小值、最大值和平均值作为数值。这种对两个限制值的区分没有任何用处，但无法避免，因为 Nagiosgraph 不知道这些是常数：它将警告和关键限制值视为任何其他测量值。

如果插件不提供任何性能数据，但提供在正常输出中使用的值，则可以将搜索功能应用于输出（**`/output:.../`**）而不是性能数据。例如，Nagiosgraph 论坛在[`sourceforge.net/forum/forum.php?forum_id=394748`](http://sourceforge.net/forum/forum.php?forum_id=394748)提供帮助。

![主机`linux0l`上文件系统`/net/linux01/a`的使用空间和限制值，如 Nagiosgraph 所示](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223960.png.jpg)

图 19-1. Nagiosgraph 表示的主机`linux0l`上文件系统`/net/linux01/a`的使用空间和限制值

对**`map`**的更改至关重要。因此，建议您首先复制文件，然后编辑副本，并使用**`perl -c`**进行语法检查：

如果语法检查无误，您可以安装新的文件作为**`map`**。

* * *

^([194]) 关于此主题的更多信息可以在[`www.rrdtool.org/`](http://www.rrdtool.org/)找到。

^([195]) 要安装，请参阅 19.4.1 安装。

^([196]) 关于**`serviceextinfo`**对象的更详细描述包含在 16.4.2 扩展服务信息，第 366 页。

^([197]) 一对方括号包含备选方案。

^([198]) 这将千字节转换为字节。

# 19.3 使用 Perf2rrd 准备性能数据以进行评估

另一个将 Nagios 性能数据传输到 RRD 数据库的工具是 Java 应用程序 Perf2rrd。这需要一个已安装的 Java 运行时环境（1.4.2 插件测试，或者最好是 1.5 配置 Web 界面）。由于虚拟机在较不强大的计算机上会产生明显的负载，并且还需要大量的内存，因此 Perf2rrd 对 Nagios 服务器的要求比 Nagiosgraph 的要求要高得多。

另一方面，在安装方面，在生成 RRD 数据库方面就没有更多的工作要做，因为 Perf2rrd 使用了 Nagios 的模板机制（见 19.1 使用 Nagios 处理插件性能数据，第 404 页）。对于模板中包含的每个服务和每个变量，该工具都会使用以下命名模式创建一个单独的 RRD 数据库：

因此，为了评估**`check_icmp`**变量**`rta`**（往返平均）和**`pl`**（丢包率），文件名分别是**`linux01+PING+pl.rrd`**和**`linux01+PING+rta.rrd`**。

Perf2rrd 只负责在 RRD 数据库中存储数据，并不提供任何图形显示已保存数据的工具。Perf2rrd 的作者 Marc DeTrano 在这里提到了**`drraw`**工具（见 19.4 图形专家 drraw，第 420 页）。使用它可能是有益的，因为一方面**`drraw`**提供了比 Nagiosgraph 提供的单一显示更多的功能，另一方面你不必在 Perl 中与正则表达式抗争。

## 19.3.1 安装

对于安装，你应该从[`perf2rrd.sf.net/`](http://perf2rrd.sf.net/)获取 tar 格式的存档，并将其复制，最好复制到**`/usr/local`**层次结构中：

之后运行的可执行程序是一个名为**`run`**的脚本，该脚本会调用 Java 字节码解释器，**`java`**。除此之外，该目录还包含 Java 类文件和其他实用工具，如果需要，可以使用这些工具重新编译包含的共享库**`librrdj.so`**。对于较新的发行版，这通常是不必要的。

为了让**`run`**能够找到**`java`**程序，它必须位于**`/usr/bin`**。如果不是这样（例如，因为你已经从[`www.sun.com/`](http://www.sun.com/)安装了 Java 存档），那么你应该设置一个链接：

简短的测试可以显示 Perf2rrd 是否正确启动：

最后行显示的错误信息目前不是问题，因为我们已经将 RRD 数据库保存在了不同的目录中（Perf2rrd 永久运行）。

## 19.3.2 Nagios 配置

Perf2rrd 在 Nagios 配置中搜索它所需的所有数据：Nagios 应将性能数据写入哪个文件，用于此的写入模式，以及模板的格式：

由于**`service_perfdata_file_mode=w`**，这里使用的命名管道必须手动创建——Perf2rrd 1.0 在 Nagios 2.0 中与正常文件接口（**`service_perfdata_file_mode=a`**）存在问题：

在模板中缺少了介绍性的[**`SERVICEPERFDATA`**]戳记（参见 19.1 使用 Nagios 处理插件性能数据），因为 Perf2rrd 1.0 无法正确解析此戳记。更改 Nagios 配置需要重新加载：

最后，你为 RRD 数据库创建目录：

## 19.3.3 实际应用中的 Perf2rrd

每次启动 Perf2rrd 时都加载 Java 虚拟机需要相当多的资源。因此，你不应该使用**`service_perfdata_file_processing_command`**参数在 Nagios 的特定间隔启动 Perf2rrd，也不应该使用**`one-shot mode`**，即通过**`./run -o`**，其中软件一次处理一个文件。理论上，这可以通过 cron 作业定期运行 Perf2rrd。相反，建议你让程序永久运行。

当首次使用时，我们建议你开启调试模式，这将显示发生的任何问题。选项**`-d`**指定工具应创建和更新 RRD 数据库的目录：

Nagios 配置文件、RRD 存储库和数据传输模式（**`named pipe`**）的输出紧随 Nagios 使用的（并通过**`interval_length`**参数设置的）时间单位。通常这是 60 秒，即**`5`**分钟的检查间隔为五分钟。确保此参数被正确识别非常重要，因为 Perf2rrd 通过将**`normal_check_interval`**和**`interval_length`**参数相乘来确定 RRD 数据库的*步长间隔*。

在步长间隔内发生的所有测量值都由数据库进行平均。如果这个时间段太小，数据库可能永远不会发布任何值，因为它期望保存的数据比实际获得的多得多。

当 Nagiosgraph 使用固定的五分钟间隔时，Perf2rrd 会调整自身以适应 Nagios 配置。然而，软件仅在创建 RRD 数据库时考虑间隔；稍后更改 Nagios 配置不会产生进一步的影响。你可以做的唯一改变是删除 RRD 数据库并重新设置它。

### 永久运行的 Perf2rrd

在命名管道上运行 Perf2rrd 有一个缺点：如果 Nagios 重新启动，它会先关闭管道然后再重新打开。不幸的是，当管道关闭时，Perf2rrd 也会随之关闭。

这可以通过 Daniel J. Bernstein 的 Daemon Tools 来防止。它们监控程序并在这些程序停止时重新启动它们。它们自己通过 init 进程的 **`/etc/inittab`** 条目启动，并在它们在某个时刻自行关闭时重新启动。可以从 [`cr.yp.to/daemorLtools/install.html`](http://cr.yp.to/daemorLtools/install.html) 获取 Daemon Tools 的 tar 文件，并将其解压到 **`/usr/local/src`** 目录中：

这将创建 **`admin/daemontools-0.76`** 目录，其中包含子目录 **`package`** 和 **`src`**。从那里你应该运行 **`install`** 脚本，它会编译并安装程序：

二进制文件会落在新创建的目录 **`daemontools-0.76/com-mand`** 中，并保留在那里。安装程序还会设置指向它们的符号链接，这些链接指向新创建的文件夹 **`/command`**。

**`install`** 脚本还在 **`/etc/init-tab`** 文件中包含以下行，以确保 Daemon Tools 永久运行：

程序 **`svscanboot`** 会定期搜索新的或崩溃的守护进程。为此，它会扫描 **`/service`** 目录，该目录也是在安装过程中创建的。只需一个符号链接就可以让 Perf2rrd 被监控：

Daemon Tools 在此目录中搜索名为 **`run`** 的脚本并启动它。为了使 **`run`** 能够找到 RRD 存储库的路径，在脚本文件中输入了实际的命令行选项而不是 **`$*`**：

现在，启动和结束 Perf2rrd 由程序 **`svc`** 负责：

**`-d`** 选项（表示 *down*）会停止指定的服务，而 **`-u`** (*up*) 选项会再次启动它。在开始时运行它并不是必需的，因为 Daemon Tools 会定期扫描 **`/service`** 目录以查找新的服务并自动启动它们。这一点很重要，因为本书基于的 Nagios-2.0 测试版在配置的命名管道无法读取时存在问题。那时，它可能根本不会再提供任何数据，直到重新加载或重启。在印刷时，无法确定 Nagios 2.0 最终版本是否修复了这个问题。

* * *

^([199]) 使用 **`a`**，Nagios 将数据追加到正常日志文件中；使用 **`w`**，它通过命名管道使其可访问。参见 19.1 使用 Nagios 处理插件性能数据，第 404 页。

# 19.4 图形专家 **`drraw`**

从由 Perf2rrd 或 Nagios-graph 生成的 RRD 数据库中，CGI 脚本**`drraw`**创建交互式图形——简单的相对快速，而对于更复杂的图形，则需要了解一些 RRDtools 的知识^([200))。

## 19.4.1 安装

对于**`drraw`**的安装，您需要从[`www.taranis.org/drraw/`](http://www.taranis.org/drraw/)获取当前的 tar 文件，并将其解压到 Web 服务器 CGI 层次结构中的自己的子目录中^([201)]:

然后将此目录重命名为**`drraw`**^([202)）

**`drraw.cgi`**本身除了 Perl 外，还需要 Perl CGI 模块（**`CGI.pm`**）和至少版本 1.0.47 的 RRDtools；低于 1.0.36 的版本将无法工作。如果您的发行版不包含当前版本，您应从[`www.rrdtool.org/`](http://www.rrdtool.org/)获取源代码并自行编译：

CGI 脚本**`drraw.cgi`**使用 Perl 模块**`RRDs`**，在执行**`make site-perl-install`**安装后，会自动找到。

## 19.4.2 配置

**`drraw`**的配置包含在文件**`drraw.conf`**中：

显示的提取指定了 RRD 存储库（此处：**`/var/lib/rrd`**）作为最重要的细节，但也可以指定多个目录：

方括号中的文本（例如，[**`RRDbase`**]）将在 Web 界面上稍后出现，这允许区分不同的不同存储库。变量**`@dv_def`**、**`@dv_name`**和**`@dv_secs`**影响布局和图形数量。

上面的配置比标准配置多生成一个图形。这代表过去六小时：**`@dv_def`**中的扩展语句**`'end--6 hours'**描述了**`rrdtool`**（见**`man rrdgraph`**）的时间段，在**`@dv_name`**中给出了合适的标题**`'Past 6 Hours'****，而**`@dv_secs`**包含六小时，转换为（**`21600`**）秒，由**`drraw`**作为单独的图形显示的时间段。

存储库必须可读，由运行 Web 服务器的用户权限读取，并且在**`$saved_dir`**和**`$tmp_dir`**中指定的目录也必须可读。如果除**`www-data`**之外的用户运行此程序，则必须相应地调整以下命令：

数据到达临时目录**`$temp_dir`**，其内容可以随时删除，而在**`$saved_dir drraw`**中存储程序需要访问已创建图形的配置数据。这些数据不得丢失。

**`drraw`**在三个阶段实现简单的访问保护：只读（**`0`**）、受限编辑（**`1`**）和完全访问（**`2`**）。登录到 Web 服务器的用户自动获得级别 2。未经授权的用户被视为**`guest`**并分配级别**`0`**。为了避免在开始时进行身份验证的麻烦，您可以在配置文件中的以下指令中授予用户**`guest`**完全访问权限：

## 19.4.3 实际应用

Web 服务器 CGI 目录中的 CGI 脚本可以通过 URL [`nagiosserver/cgi-bin/drraw/drraw.cgi`](http://nagiosserver/cgi-bin/drraw/drraw.cgi)访问。

![ddraw 启动菜单](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223962.png.jpg)

图 19-2. `ddraw`启动菜单

新图形在启动图片中的**创建新图形**菜单项中生成，启动图片如图 19-2]），可以进一步限制可用的数据源；此表达式也可以是简单的文本，例如**`sap-12`**。

![选择数据源](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223964.png.jpg)

图 19-3. 选择数据源

一旦您选择了 RRD 数据库，您只需指定要使用的*循环冗余存档*（RRA）。这些存档中的每一个都以特定的形式保存数据，通过合并函数处理：**`AVERAGE`**函数平均测量周期内累积的所有测量数据，**`MIN`**只保存区间内数据的最低值，而**`MAX`**只保存最高值。由于原始数据已丢失，创建循环冗余数据库时必须指定存档；如果当时考虑到这一点，则只能稍后回忆最大值。

如果您无法记住存在哪些存档，您可以使用按钮**`RRD Info for selected DB`**来显示它们。点击**`Add DB(s) to Data Sources`**按钮将带您进入一个对话框，您首先需要向下滚动一点才能到达项目**`Data Source Configuration`**（图 19-4]）

**更新** 按钮提供了完成图形的预览，同时揭示了使用的 **`rrdtool`** 选项 (图 19-5). 当你保存时，使用 **保存图形**，你将获得一个如下形式的链接

通过这些教程，你可以随时访问图形。或者你现在可以在 **`drraw`** 的 **所有图形** 下找到该图形。

![精细调整图形配置](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223966.png.jpg)

图 19-4. 精细调整图形配置

![预览并指定 rrdtool 选项](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223968.png.jpg)

图 19-5. 预览并指定 `rrdtool` 选项

![完成的图形表示不同的时间段](https://github.com/OpenDocCN/greenhat-zh/raw/master/docs/nagios-2e/img/tagoreillycom20081104nostarchimages223970.png.jpg)

图 19-6. 完成的图形表示不同的时间段

当你保存图形时提到的链接可以记录在 **`service-extinfo`** 对象中，使其可以通过 Nagios 接口直接访问：

使用模板和仪表板，**`drraw`** 包含其他一些功能，由于篇幅原因，这里不能详细讨论。模板允许在同一个图形中显示相同类型的多个来源。这些来源可以在 **创建新图形** 中指定 (参见 图 19-3). 由于你只能一次添加一个来源，因此你必须为每个单独的来源点击 **添加** 按钮，然后再继续下一个。

仪表板展示了一个包含多个预览图形的显示。如果你点击其中一个图形，你会看到详细的表示。交互式菜单 **创建仪表板** 包含简要说明，你可以在这里获得关于两个功能的帮助。

* * *

^([200]) 除了主页上的文档 [`www.rrdtool.org/`](http://www.rrdtool.org/) 之外，包含的教程 (`man rrdtutorial`) 是一个有用的起点，同样还有手册页 **`man rrdgraph`**。

^([201]) 这个目录取决于你使用的发行版或 Apache 配置。

^([202]) 也可以使用符号链接，但那时 Apache 必须配置为遵循符号链接，这通常不是自动完成的。

^([203]) POSIX 正则表达式；参见 **`man 7 regex`**。

^([204]) 在 RRDtools 作者 Tobias Oetiker 的主页 [`people.ee.ethz.ch/~oetiker/webtools/rrdtool/tut/index.en.html`](http://people.ee.ethz.ch/~oetiker/webtools/rrdtool/tut/index.en.html) 上有许多教程。

# 19.5 大部分自动化：NagiosGrapher

Netways 提供的 NagiosGrapher，The Nagios Exchange Platform 的托管者[`www.nagiosexchange.org/`](http://www.nagiosexchange.org/)，是一个强大的性能数据表示工具，但已经非常强大。它还保存数据在轮询数据库中，并使用 RRDtools 进行处理和表示。它声称易于安装，并且与“竞争者”相比，在很大程度上是自动工作的。然而，后者承诺至今尚未实现；就像 Nagiosgraph 一样，你必须配置搜索模式以解释插件输出或性能数据。RRD 数据库由 NagiosGrapher 自动生成；此外，工具**`serviceextinfo`**也会生成条目。

一旦它识别出性能数据，你就不必再担心将其集成到 Nagios 中。只需重新加载即可使在此期间生成的**`serviceextinfo`**条目在 Nagios 中可用。这些条目是“智能”创建的，所以如果你在服务摘要中点击相应的图标（见图 19-7，在 434 页），你将直接进入性能数据的图形显示。

在功能性和安装努力方面，NagiosGrapher 位于 Nagiosgraph 和 Perf2rrd 之间：所需的初始配置比 Nagiosgraph 要多一些，但图形输出的变化可能性要大得多，而且你不必像 Perf2rrd/**`drraw`**那样逐个生成每个图形。

## 19.5.1 安装

除了 RRDtools（至少在版本 1.2 中）和程序**`auto-conf`**之外，NagiosGrapher 还需要一系列 Perl 模块：**`CGI`**，**`CGI::Carp`**，**`Calendar:: Simple`**，**`Carp`**，**`Data:: Dumper`**，**`File::Basename`**，**`File::Copy`**，**`GD`**，**`IO::Handle`**，**`Image::Magick`**，**`POSIX`**，**`RRDs`**，**`Storable`**，**`Time::HiRes`**，**`Time :: Local`**，和**`URI::Escape`**。

安装它们有两种选择，即从发行版中包含的软件包或从 CPAN 安装。在 Debian "Etch"和类似的基于 Debian 的系统上，如果你选择安装**`autoconf`**，**`rrdtool`**，**`perl-modules`**，**`libcalendar-simple-perl`**，**`libgd-gd2-perl`**，**`perlmagick`**，**`librrds-perl`**，和**`liburi-perl`**这些软件包，你将拥有所有模块。在其他发行版中，你必须搜索上述模块，最好使用发行版中的图形软件包安装器。你可以在执行**`configure`**命令后运行**`make testdeps`**来查看你是否已安装所有所需的模块。使用**`make fixdeps`**命令从 CPAN 安装每个最新模块版本。

NagiosGrapher 的源代码可以从 NagiosExchange 获得，205 并解压到目录 **`/usr/local/src`**：

命令 **`autoconf`** 生成一个 **`configure`** 脚本。在运行此脚本之前，编辑文件 **`config.layout`**，它提供了各种 *布局*。在 NagiosGrapher 文档中，这个术语意味着所有必需的安装路径的定义。

**`config.layout`** 包含一系列与发行版相关的建议，需要根据本书中的约定在某个方面进行更改。为此，最好复制与您的发行版匹配的部分，并将其重命名为 **`<Layout nagiosbook>`**，并修改多个条目。206 对于 Debian "Etch"，以下条目适用（更改的值以粗体显示）：

linux:src/NagiosGrapher-1.6.1 # **./configure --with-layout=nagiosbook**
...

linux:src/NagiosGrapher-1.6.1 # **make testdeps**
/usr/bin/perl ./tools/testdeps.pl
Checking Data::Dumper ... found
...
Checking IO::Handle ... found
Checking URI::Escape ... found
Checking Calendar::Simple ... not installed!
make: *** [testdeps] Error 1

linux:src/NagiosGrapher-1.6.1 # **make fixdeps**
...

linux:src/NagiosGrapher-1.6.1 # **apt-get install libcalendar-simple-perl**
...

linux:src/NagiosGrapher-1.6.1 # **make install**
mkdir -p /etc/nagios/serviceext
chown -R nagios /etc/nagios/serviceext
mkdir -p /var/lib/rrd/nagios_grapher
chown -R nagios /var/lib/rrd/nagios_grapher
...
==================================================
Just a few steps to run the grapher ...
...

linux:~ # **/etc/init.d/nagios_grapher start**

linux:~ # **update-rc.d nagios_grapher defaults 98**

linux:~ # **insserv nagios_grapher**

linux:~ # **chkconfig --add nagios_grapher**
     linux:~ # **nagios on**

# /etc/nagios/ngraph.ncfg
define config {
     interface          file
     perffile_path      /var/nagios/
     pipe               /var/nagios/rw/ngraph.pipe
     port               5667
     buffer             1024
     pidfile            /var/nagios_grapher/nagios_grapher.pid

     user               nagios
     group              nagios

     step               300
     heartbeat          AUTO

     rrdpath            /var/lib/rrd/nagios_grapher/
     tmppath            /tmp/nagiosgrapher/

     fontfile          /usr/share/fonts/truetype/ttf-dejavu/DejaVuSansCon
densed.ttf

     serviceext_type   MULTIPLE
     serviceextinfo    /etc/nagios/serviceextinfo.cfg
     serviceext_path   /etc/nagios/serviceext

     url               /nagios/cgi-bin/graphs.cgi
     #notes_url        /wiki/index.php/$HOSTNAME$#$SERVICEDESC$
     notes_url

     nagios_config     /etc/nagios
     cgi_config        /etc/nagios/cgi.cfg
   icon_image_tag        dot.png' border="0"></a><A TARGET="_blank" HREF="g
raphs.cgi?###URL###"><img src='###IMAGESRC###' '
   icon_image_src        /nagios/images/logos/graph.png
   icon_image_script     /nagios/cgi-bin/rrd2-system.cgi?###URL###&start=-5
400&title=Actual&width=20&height=20&type=AVERAGE&only-graph=true
   icon_image_static true

   log_file              /var/nagios/ngraph.log
   log_level             1023

   rrd_color_background  ffffff
   rrd_color_font        333333
   rrd_color_arrow       ff0000
   rrd_color_frame       ffffff
   rrd_color_grid
   rrd_color_canvas      ffffff
   rrd_color_shadea      c0c0c0
   rrd_color_shadeb      c0c0c0

   fe_use_browser_all    false
   fe_use_browser_for    nagiosadmin
   fe_use_browser_url    false
   fe_use_timefilter     true
   use_authentication    true
   ...
}
# Includes
cfg_dir=/etc/nagios/ngraph.d

cfg_dir=/etc/nagios/ngraph.d

nagios@linux:nagios/ngraph.d$ **cp** \
**templates/standard/check_ping.ncfg_disabled ./check_ping.ncfg**

nagios@linux:libexec/nagios$ **./check_icmp -H linux01**
OK - linux01: rta 96.387ms, lost 0%| rta=96.387ms;200.000;500.000;0; pl=
0%;40;80;;

# check_icmp.ncfg
...
# Ping Packet loss
define ngraph{
           service_name                PING
           graph_perf_regex            pl=([0-9]*)%
           graph_value                 Loss
           graph_units                 %
           graph_legend                Packet Loss
           graph_legend_eol            none
           page                        Packet Loss
           rrd_plottype                LINE2
           rrd_color                   ff0000
}
# Ping RTA
define ngraph{
           service_name                PING
           graph_perf_regex            rta=([0-9]*\.[0-9]*)
           graph_value                 RTA
           graph_units                 ms
           graph_legend                Time to answer
           page                        RTA
           rrd_plottype                AREA
           rrd_color                   00a000
}

DISK OK - free space: /usr 287 MB (19%);| /usr=1225MB;1359;1465;0;1511

# (1) readout current occupancy of hard drive space,
#     but do not show it as a graphic
define ngraph{
        service_name               fs_
        graph_perf_regex           =([.].+)MB;[.].+;[.].+;[.].+;[.]. +
        graph_value                disk_used
        graph_units                Bytes
        graph_legend               used space
        rrd_plottype               AREA
        rrd_color                  00a000
        hide                       yes
}

# (2) display used hard drive space in scaled form
define ngraph{
            service_name           fs_
            type                   CDEF
            graph_value            DISK_USED
            graph_legend           used space
            graph_calc             disk_used,1024,1024,*,*
            rrd_plottype           AREA
            rrd_color              666666
            hide                   no
}

# (3) defining the space available,
#     but not displaying it in the graphic
define ngraph{
       service_name              fs_
       graph_perf_regex          =[.].+MB;[.].+;[.].+;[.].+;([.].sb>+)
       graph_value               disk_max
       graph_legend              max space
       rrd_plottype              LINE2
       rrd_color                 0000a0
       hide                      yes
}

# (4) calculate and display free space
define ngraph{
      service_name         fs_
      type                 CDEF
      graph_value          DISK_MAX
      graph_legend         free space
      rrd_plottype         STACK
      rrd_color            CCCCCC
      graph_calc           disk_max,disk_used,-,1024,1024,*,*
      hide                 no
}

linux:~ # **/etc/init.d/nagios_grapher restart**

# /etc/nagios/nagios.cfg
...
process_performance_data=1
service_perfdata_command=**process-service-perfdata**

# process_service_perfdata_ngraph.cfg
...
define command{
      command_name **process-service-perfdata**
      command_line /usr/local/nagios/contrib/**fifo_write** /var/nagios/rw/ngr
aph.pipe '$HOSTNAME$\t$SERVICEDESC$\t$SERVICEOUTPUT$\t$SERVICEPERFDATA$\
n' 3
}
...

# process_service_perfdata_ngraph.cfg
...
define command{
   command_name **process-service-perfdata**
   command_line     /usr/local/nagios/contrib/**udpecho**
}
...

# process_service_perfdata_ngraph.cfg
...
define command{
    command_name    process-service-perfdata
command_line mv /var/nagios/service-perfdata /var/nagios/service-per
fdata.$TIMET$
}
...

# /etc/nagios/nagios.cfg
...
service_perfdata_file_processing_command=process-service-perfdata
service_perfdata_file=/var/nagios/service-perfdata
service_perfdata_file_template=$HOSTNAME$\t$SERVICEDESC$\t$SERVICEOUTPUT
$\t$SERVICEPERFDATA$\t**$TIMET$**
service_perfdata_file_mode=a
service_perfdata_file_processing_interval=60
...

linux:~ # **/etc/init.d/nagios reload**

CFG: buffer ⇒ '1024'
     CFG: cgi_config ⇒ '/etc/nagios/cgi.cfg'
     ...
     PRG: Starting up collect2.pl (PID: 25003) ...
     PRG: using UDP socket (port: 5667)
     ...
     NET: got udp message from localhost:32783
     PIPE: swobspace PING OK - 192.168.1.9: rta 0.104ms, lost 0% rt a
     =0.104ms;200.000;500.000;0; pl=0%;20;60;;
     REGEX: 2 blocks for 'PING' found.
     REGEX: graph_value=RTA
     REGEX: output=perfdata
     REGEX: regex=m/rta=([0-9]* [0-9]*)/i
     REGEX: perfdata=rta=0.104ms;200.000;500.000;0; pl=0%;20;60;;
     REGEX: match=0.104
     REGEX: graph_value=Loss
     REGEX: output=perfdata
     REGEX: regex=m/.*pl=([0-9]*)/i
     REGEX: perfdata=rta=0.104ms;200.000;500.000;0; pl=0%;20;60;;
     REGEX: match=0
     VALUES: [swobspace][PING]: RTA=0.104 Loss=0
     RRD: rrdtool update /var/lib/rrd/nagios_grapher/swobspace/f66ffe61c885 d
     e2d8b6d0c41ff444b39.rrd --template=RTA:Loss N:0.104:0
...

linux:~ # **cd /usr/local/src/**
linux:local/src # **tar xvzf** /path/to/**pnp-0.4.tar.gz**
...
linux:local/src # **cd pnp-0.4**
linux:src/pnp-0.4 # **./configure --sysconfdir=/etc/pnp**
...

# /etc/pnp/config.php
     ...
     $conf['rrdtool'] = "/usr/bin/rrdtool"
     $conf['rrdbase'] = "/usr/local/nagios/share/perfdata"
     ...

# /etc/pnp/process_perfdata.cfg
     TIMEOUT = 5
     USE_RRDs = **1**
     RRDPATH = /usr/local/nagios/share/perfdata
     RRDTOOL = /usr/bin/rrdtool
     CFG_DIR = /etc/pnp/
     RRA_CFG = /etc/pnp/rra.cfg
     RRA_STEP =60
     LOG_FILE = **/var/nagios/pnp-perfdata.log**
     LOG_LEVEL = 0

# /etc/nagios/nagios.cfg
     ...
     illegal_macro_output_chars='~$&|"<>
     # -- perfdata
     process_performance_data=1
     service_perfdata_command=**service-perfdata-pnp**
     ...

# /etc/nagios/global/commands/service-perfdata-pnp.cfg
define command{
    command_name service-perfdata-pnp
    command_line /usr/bin/perl /usr/local/nagios/libexec/process_perfdat
    a.pl
}

$views[0]["title"]   =   "4 Hours";
         $views[0]["start"]   =   ( 60*60*4 );

         $views[1]["title"]   =   "24 Hours";
         $views[1]["start"]   =   ( 60*60*24 );

         $views[2]["title"]   =   "One Week";
         $views[2]["start"]   =   ( 60*60*24*7 );

         $views[3]["title"]   =   "One Month";
         $views[3]["start"]   =   ( 60*60*24*30 );

         $views[4]["title"]   =   "One Year";
         $views[4]["start"]   =   ( 60*60*24*365 );

# Nagios 3
define service {
    hostname              *hostname*
    service_description   *servicename*
    ...
    action_url            /pnp/index.php?host=$HOSTNAME$&srv=$SERVICEDESC$
}

# Nagios 2.x
define serviceextinfo {
     hostname             *hostname*
     service_description  *servicedesc*
     ...
     action_url           /pnp/index.php?host=$HOSTNAME$&srv=$SERVICEDESC$
}

# /etc/nagios/nagios.cfg
...
service_perfdata_file_template=DATATYPE::SERVICEPERFDATA\tTIMET::$TIMET$
\tHOSTNAME::$HOSTNAME$\tSERVICEDESC::$SERVICEDESC$\tSERVICEPERFDATA::$SE
RVICEPERFDATA$\tSERVICECHECKCOMMAND::$SERVICECHECKCOMMAND$\tHOSTSTATE::
$HOSTSTATE$\tHOSTSTATETYPE::$HOSTSTATETYPE$\tSERVICESTATE::$SERVICEST
ATE$\tSERVICESTATETYPE::$SERVICESTATETYPE$

service_perfdata_file=/var/nagios/service-perfdata
service_perfdata_file_mode=a
service_perfdata_file_processing_interval=30
service_perfdata_file_processing_command=service-perfdata-npcd
...

define command{
      command_name service-perfdata-npcd
      command_line /bin/mv /var/nagios/service-perfdata /var/nagios/perfsp
ool/service-perfdata-$TIMET$
}

user=nagios
group=nagios
log_type=syslog
log_level=0
perfdata_spool_dir=/var/nagios/perfspool/
perfdata_file_run_cmd=/usr/local/nagios/libexec/process_perfdata.pl
perfdata_file_run_cmd_args=-b
npcd_max_threads=1

...
CONF=/etc/pnp/npcd.cfg
...

linux:~ # /etc/init.d/npcd start

linux:~ # ln -s /etc/init.d/npcd.sh /etc/init.d/rc2.d/S99npcd
linux:~ # ln -s /etc/init.d/npcd.sh /etc/init.d/rc3.d/S99npcd
linux:~ # ln -s /etc/init.d/npcd.sh /etc/init.d/rc5.d/S99npcd

linux:~ # **cd /usr/local/nagios/share/pnp/templates**
linux:pnp/templates # **ln -s../templates.dist/check_ping.php \
check_icmp.php**

<?php
#
# For all plugins that provide response times
# $Id: response.php 53 2006-06-07 07:16:50Z linge $
#

$opt[1] = "--vertical-label \"Response Time\" \
           --title \"Response Time For $hostname / $serviced
esc\" ";

$def[1]  =  "DEF:var1=$rrdfile:$DS[1]:AVERAGE " ;
$def[1]  .=  "AREA:var1#00FF00:\"Response Times \" " ;
$def[1]  .=  "LINE1:var1#000000:\"\" " ;
$def[1]  .=  "GPRINT:var1:LAST:\"%3.41g %s$UNIT[1] LAST \" ";
$def[1]  .=  "GPRINT:var1:MAX:\"%3.41g %s$UNIT[1] MAX \" ";
$def[1]  .=  "GPRINT:var1:AVERAGE:\"%3.4lg %s$UNIT[1] AVERAGE \" ";
?>

#
# Adapt the Template if check_command should not be the PNP Template
#
# check_command check_nt!MEMUSE!80%!90%
# ________0__________|     |    |  |
# ________1________________|    |  |
# ________2_____________________|  |
# ________3________________________|
#
CUSTOM_TEMPLATE = 0,1
#

linux:~ # **cd /usr/local/nagios/share/pnp/templates**
linux:pnp/templates # **ln -s ../templates.dist/check_nt_mem.php**\
**check_nt_MEMUSE.php**

PDH.dll Collect CPU - ERROR:...

C:\Programs\NSClient> **pNSClient.exe /install**
C:\Programs\NSClient> **net start nsclient**

port 4711 password *password*

D:\Program Files\Nagios\nsclient++> **NSClient++/install**
D:\Program Files\Nagios\nsclient++> **NSClient++/start**

D:\> **net start nsclientpp**
D:\> **net stop nsclientpp**

[modules]
; loadable modules
[Settings]
; general settings
[log]
; Logging and debugging
[NSClient]
; Parameters for NSClient-compatible queries
[Check System]
; Fine-tuning configuration for system checks (CPU, memory, ...)
[NRPE]
; Parameters for NRPE
[NRPE Handlers]
; NRPE commands

[modules]
FileLogger.dll
CheckDisk.dll
CheckSystem.dll
NSClientListener.dll
NRPEListener.dll
; SysTray.dll
; CheckHelpers.dll
; CheckWMI.dll

[Settings]
; obfuscated_password=Jw0KAUUdXlAAUwASDAAB
; password=secret-password
allowed_hosts=
use_file=1

[log]
debug=0
; file=NSC.log
date_mask=%Y-%m-%d %H:%M:%S

[NSClient]
; allowed_hosts=
port=12489
; bind_to_address=

[Check System]
; CPUBufferSize=1h
; CheckResolution=10

C:\Program Files\Nagios\opmonagent> **opmonagent/install**
C:\Program Files\Nagios\opmonagent> **net startopmonagent**

[OPMONAGENT]
enable=1
password=None
port=5667
allow_from=127.0.0.1,192.168.10.2,192.168.2.1
autodetect_counters=1
use_counters=W2K
max_connections=300
debuglevel=0

[NRPE]
enable=1
port=5666
command_timeout=60
allow_from=127.0.0.1,192.168.10.1,192.168.2.1

define host{
   name        host_t
   register    0
   ...
   _NSCLIENT_PORT 1248
   ...
}

define host{
   host_name      winsrv
   use            host_t
   ...
   _NSCLIENT_PORT 12489
}

define command{
    command_name check_nt
    command_line $USER1$/check_nt -H $HOSTADDRESS$ -p $_HOSTNSCLIENT_POR
T$ -v $ARG1$ $ARG2$
}

check_nt -H *address* -v CLIENTVERSION

nagios@linux:nagios/libexec$ ./**check_nt -H winsrv -v CLIENTVERSION**
NC_Net 2.21 03/13/05

define command{
   command_name check_nt_nsclient
   command_line $USER1$/check_nt -H $HOSTADDRESS$ -v $ARG1$ $ARG2$
}

define command{
   command_name check_nt
   command_line $USER1$/check_nt -H $HOSTADDRESS$ **-p$_HOSTNSCLIENT_POR**
**T$** -v $ARG1$ $ARG2$
}

define service{
   host_name           winsrv
   service_description NSClient
   check_command       check_nt!**CLIENTVERSION**
   ...
}

define servicedependency{
    host_name                     winsrv
    service_description           NSClient
    dependent_host_name           winsrv
    dependent_service_description Disks,Load,Memory
    notification_failure_criteria c,u
    execution_failure_criteria    n
}

# Nagios 3.0
define servicedependency{
    hostgroup_name                  WINDOWS_SERVER
    service_description             NSClient
    dependent_service_description   Disks,Load,Memory
    notification_failure_criteria   c,u
    execution_failure_criteria      n
}

check_nt -H *address* -v CPULOAD -l *interval, warning limit, critical_limit*

nagios@linux:nagios/libexec$ .**/check_nt -H winsrv -v CPULOAD -l 5,80,90**
CPU Load 10% (5 min average) |   '5 min avg Load'=10%;80;90;0;100

nagios@linux:nagios/libexec$ .**/check_nt -H winsrv -v CPULOAD \**
  **-l 5,80,90,15,70,80**
CPU Load 10% (5 min average) 10% (15 min average) |   '5 min avg Load'=10
%;80;90;0;100 '15 min avg Load'=10%;70;80;0;100

define service{
   host_name             winsrv
   service_description   CPU Load
   check_command         check_nt!**CPULOAD**!-l 5,80,90,15,70,80
   ...
}

check_nt -H *address* -v MEMUSE -w *integer* -c *integer*

nagios@linux:nagios/libexec$ .**/check_nt -H winsrv -v MEMUSE \**
 **-w 70 -c 90**
Memory usage: total:4331.31Mb - used: 257.04Mb (6%) - free: 4074.27Mb (9
4%) |   'Memory usage'=257.04Mb;3031.91;3898.18;0.00;4331.31

define service{
   host_name           winsrv
   service_description MEM Usage
   check_command       check_nt!**MEMUSE**!-w 70 -c 90
   ...
}

check_nt -H *address* -v USEDDISKSPACE -l *drive letter* -w *integer* -c *integer*

nagios@linux:nagios/libexec$ .**/check_nt -H winsrv -v USEDDISKSPACE\**
  **-l C -w 70 -c 80**
C: - total: 4.00 Gb - used: 2.06 Gb (52%) - free 1.94 Gb (48%)  |  'C: Use
d Space'=2.06Gb;2.80;3.20;0.00;4.00
nagios@linux:nagios/libexec$ **echo $?**
0

define service{
   host_name           winsrv
   service_description Disk_C
   check_command       check_nt!**USEDDISKSPACE**!-l C -w 70 -c 80
   ...
}

check_nt -H *address* -v UPTIME

nagios@linux:nagios/libexec$ .**/check_nt -H winsrv -v UPTIME**
System Uptime - 17 day(s) 9 hour(s) 54 minute(s)

define service{
   host_name           winsrv
   service_description UPTIME
   check_command       check_nt!**UPTIME**
   ...
}

check_nt -H *address* -v SERVICESTATE -d SHOWALL -l *service1, service2*,...

nagios@linux:nagios/libexec$ .**/check_nt -H winsrv1 -v SERVICESTATE \**
  **-l "RemoteAccess"**
RemoteAccess: Stopped
nagios@linux:nagios/libexec$ .**/check_nt -H winsrv2 -v SERVICESTATE \**
  **-l "Routing and RAS"**
All services are running

define service{
   host_name           winsrv
   service_description Routing and RAS
   check_command       check_nt!**SERVICESTATE**!-l RemoteAccess
   ...
}

check_nt -H *address* -v PROCSTATE -d SHOWALL -l *process1, process2*,...

nagios@linux:nagios/libexec$ .**/check_nt -H winsrv -v PROCSTATE** \
**WinVNC.exe,winlogon.exe,notexist.exe**
  notexist.exe: not running

define service{
   host_name           winsrv
   service_description WinVNC
   check_command       check_nt!**PROCSTATE**!-l winvnc.exe
   ...
}

check_nt -H *address* -v FILEAGE -l *path* -w *integer* -c *integer*

nagios@linux:nagios/libexec$ .**/check_nt -H winsrv -v FILEAGE \**
  **-l "C:\\test.log" -w 1 -c 20**
1113158517
nagios@linux:nagios/libexec$ **echo $?**
1

define service{
   host_name           winsrv
   service_description Log file
   check_command       check_nt_fileage!C:       xyz.log!60!1440
   ...
}

linux:~ # **cp check_nt.c /usr/local/src/nagios-plugins-1.4/plugins**
linux:~ # **cd /usr/local/src/nagios-plugins-1.4/plugins**
linux:nagios-plugins-1.4/plugins # **mv check_nt check_nt_orig**
linux:nagios-plugins-1.4/plugins # **make check_nt**
...
linux:nagios-plugins-1.4/plugins # **mv check_nt check_ncnet**
linux:nagios-plugins-1.4/plugins # **cp check_ncnet** \
  **/usr/local/nagios/libexec/**.

check_ncnet -H *address* -v ENUMCOUNTER -l *category1, category2*

nagios@linux:nagios/libexec$ .**/check_ncnet -H winsrv -v ENUMCOUNTER**
... Processor; ... Terminal services; .NET CLR loading procedure; tot
al RAS services; Process; ...

nagios@linux:nagios/libexec$ .**/check_ncnet -H winsrv -v ENUMCOUNTER** \
  **-l Terminal services**
Terminal Services: Total Sessions; Active Sessions; Inactive Sessions
nagios@linux:nagios/libexec$ .**/check_ncnet -H winsrv -v ENUMCOUNTER** \
 **-l "Terminal Services","Process"**
Terminal Services: Total Sessions; Active Sessions; Inactive Sessions-Process: %
 Processor Time; % User Time; % Privileged Time; Virtual Bytes Peak; Virtual Bytes;
 Page Faults/sec; Working Set Peak; Working Set; ...

check_ncnet -H *address* -v INSTANCES -l *category1, category2*

nagios@linux:nagios/libexec$ .**/check_ncnet -H winsrv -v INSTANCES** \
  **-l "Terminal Services"**
  Terminal Services:

nagios@linux:nagios/libexec$ .**/check_ncnet -H winsrv -v INSTANCES** \
  **-l "Process"**
Process: svchost#6,svchost,Idle,explorer,services,...

*\category\counter object*
*\category(instance)\counter object*

check_nt -H *adresse* -v COUNTER -l *name, formatbeschreibung* -w *ganzzahl* -c
*ganzzahl*

nagios@linux:nagios/libexec$ .**/check_ncnet -H winsrv -v COUNTER** \
  **-l "\Terminal Services\Active Sessions"**
1
nagios@linux:nagios/libexec$ .**/check_ncnet -H winsrv -v COUNTER** \
  **-l "\Process(Idle)\% Processor Time"**
98

nagios@linux:nagios/libexec$ **./check_ncnet -H winsrv -v COUNTER** \
  **-l "\Process(Idle)\% Processor Time","Idle Process: %.2f %%"**
Idle Process Usage is: 54.00 % | 'Idle Process Usage is: %.2f %%'=54.000000%;
0.000000;0.000000;

define service{
   host_name           winsrv
   service_description Terminal Sessions
   check_command check_nt!**COUNTER**!-v "\Terminal Services\Active Sessions"
-w 20 -c 30
   ...
}

nagios@linux:nagios/libexec$ **./check_ncnet -H winsrv -v ENUMPROCESS**
System Idle Process; System; smss.exe; csrss.exe; winlogon.exe;
services.exe; lsass.exe; svchost.exe; svchost.exe; svchost.exe;
...

check_ncnet -H *host* -v ENUMSERVICE -l *typ*, short

nagios@linux:nagios/libexec$ **./check_ncnet -H winsrv -v ENUMSERVICE**
    \ **-l manual,short**
ALG; AppMgmt; BITS; COMSysApp; dmadmin; EventSystem; HTTPFilter; LPDSVC; MSIServer;
 Netman; Nla; NtFrs; NtLmSsp; NtmsSvc; RasAuto;
...

check_ncnet -H *adress* -v EVENTLOG -w *integer* -c *integer* -l *eventlog, event_type,
interval,source_filter, description_filter, id_filter*

nagios@linux:nagios/libexec$ .**/check_ncnet -H winsrv -v EVENTLOG** \
  **-l "Application,any,1440,0,0,0"**
9 Errors with ID: 13001;2003;1010;6013;1111;262194;26;262194;26 LAST - I
D 262194;Not all data for the file "\Device\LanmanRedirector" were sa
ved. Possible causes are computer hardware or the network connection. P
lease specify a different file path.

define service{
   host_name        winsrv
   service_description Eventlog data loss
   check_command    check_ncnet!**EVENTLOG**!-l System,any,5,0,1,data loss,0
   is_volatile           1
   normal_check_interval 5
   max_check_attempts    1
   ...
}

nagios@linux:nagios/libexec$ **./check_ncnet -H winsrv -v ENUMCONFIG**
Date: 16.04.2005 18:15:10;
Version: NC_Net 2.21 03/13/05;
NC_Net Config Path: c:\Programs\shatter it\nc_net\config\;
Startup Config: c:\Programs\shatter it\nc_net\config\startup.cfg;
Debug Log: c:\Programs\shatter it\nc_net\config\deb.log;
...
Port: 1248;
Pass: None;
...

lock_passive_config true
lock_active_config true

D:\Programs\Nagios\nrpe_nt> **unzip nrpe_nt.0.8-bin.zip**
...

D:\Programs\Nagios\nrpe_nt\bin> **nrpe_nt -i**
D:\Programs\Nagios\nrpe_nt\bin> **net start nrpe_nt**

command [check_cmd]=D: \Programs\Nagios\nrpe_nt\plugins\test.cmd

D:\Programs\Nagios\nrpe_nt\bin> **net stop nrpe_nt**
D:\Programs\Nagios\nrpe_nt\bin> **net start nrpe_nt**

nagios@linux:nagios/libexec$ **./check_nrpe -H winsrv**
NRPE_NT v0.8/2.0

@echo off
echo hallo from cmd
exit 1

nagios@linux:nagios/libexec$ **./check_nrpe -H winsrv -c check_cmd**
hallo from cmd
nagios@linux:nagios/libexec$ **echo $?**
1

D:\Tmp> **unzip CygwinPlugins1-3-1.zip**
D:\Tmp> **dir NagPlug**
check_dummy.exe  check_ssh.exe   check_udp.exe        cygwin1.dll
check_http.exe   check_tcp.exe   cygcrypto-0.9.7.dll  negate.exe
check_smtp.exe   check_time.exe  cygssl-0.9.7.dll     urlize.exe

D:\Tmp\NagPlug> **copy * D:\Programme\Nagios\plugins**

command [check_web]=D:\Programme\nagios\plugins\check_http -H www.swobspa ce.de
command [check_identd]=D:\Programme\nagios\plugins\check_tcp -H linux01 -p 113

# BEGIN{
#       push @INC, "/usr/lib/perl5/site_perl/...
# }

$p->port = 80;

command [check_ping_eli02]=C:\Perl\bin\perl.exe D:\Programme\Nagios\plugi ns\
check_ping.pl --host 172.17.129.2 --loss 10,20--rta 50,250

[NRPE]
port=5666
allow_arguments=1
allow_nasty_meta_chars=1
use_ssl=1
; bind_to_address=
; allowed_hosts=
command_timeout=10
performance_data=1

command [*command_name*]=*command line*
*command_name=command line*

[NRPE Handlers]
; ---------------------------------------------
; external plugins
; ---------------------------------------------
; NRPE-stylish:
;command [check_tcp]=C:\Plugins\check_tcp -H $ARG1$ -p $ARG2$
; shorter:
check_tcp=C:\Plugins\check_tcp -H $ARG1$ -p $ARG2$
;
check_smtp=C:\Plugins\check_smtp -H $ARG1$ -f wob@example.net
;
check_uptime=inject CheckUpTime ShowAll MinWarn=1d MinCrit=12h

check_inject=inject $ARG1$

nagios@linux:nagios/libexec$ **./check_nrpe -H winsrv -ccheck_inject** \
  **-a "checkUpTime ShowAll MinWarn=1d MinCrit=12h"**
OK: uptime: 6d 7:19|'uptime'=544771000;86400000;43200000;

define command{
   command_name   check_inject
   command_line   $USER1$/check_nrpe -u -H $HOSTADDRESS$ -c check_inject -a "$ARG1$"
}
define service{
   host_name         winsrv
   service_description Uptime
   check_command     check_inject!checkUpTime ShowAll MinWarn=1d MinCr
it=12h
   ...
}

nagios@linux:nagios/libexec$ **./check_nt -H winsrv -vUSEDDISKSPACE** \
  **-l C -w 80 -c 90**
...

CheckFileSize MaxWarn=*size* MaxCrit=*size*
MinWarn=*size* MinCrit=*size*
File=*path:alias* ShowAll

user@linux:nagios/libexec$ **./check_nrpe -H 172.17.129.25** \
 **-c check_inject -a "CheckFileSize** \
 **MaxWarn=500M MaxCrit=1024MFile=E:\Exchsvr\mdbdata_log\*.***\
 **MaxWarn=10G  MaxCrit=30G  File=F:\store02\priv2.edb**
\
 **File=G:\store03\pub3.edb ShowAll"**

WARNING:  E:\Exchsvr\mdbdata_log\*.*: 77M,
F:\store02\priv2.edb: 11.4G > w
arning, G:\store03\pub3.edb: 3.09G|
'E:\Exchsvr\mdbdata_log\*.*'=80740352
;524288000;1073741824;
'F:\store02\priv2.edb'=12234989568;10737418240 ;322
12254720;
'G:\store03\pub3.edb'=3316719616;10737418240;32212254720;

MaxWarn=500M MaxCrit=1024M File:TMP=C:\tmp\*.*

OK: TMP: 0B|'TMP'=0;524288000;1073741824;

CheckDriveSize MaxWarnFree=*größe* MaxCritFree=*size*
MinWarnFree=*size* Min
CritFree=*size* MaxWarnUsed=*size*
MaxCritUsed=*size* MinWarnUsed=*size* Min
CritUsed=*size* Drive=*laufwerk* FilterType=*type*
CheckAll CheckAllOthers Sho
wAll

CheckDriveSize CheckAll FilterType=FIXED FilterType=REMOTE

CheckCPU warn=*percentage* crit=*percentage*
time=*period* ShowAll nsclient

CheckCPU warn=30 crit=80 time=1m time=5m time=15m

OK CPU Load ok.
OK:  1m:  2%,  5m:  2%,  15m:  2%
OK:  1m:  average load 2%, 5m: average load 2%, 15m: average load 2%

CheckUpTime MaxWarn=*time* MaxCrit=*time*
MinWarn=*time* MinCrit=*time* ShowAll
nsclient Alias=*string*

OK:  uptime:  1d  20:11
OK:  Running_Time:  1d 20:12

CheckServiceState *service* ShowFail CheckAll
exclude= *servicename*
CheckServiceState ShowFail ShowAll CheckAll exclude=*servicename*

CheckServiceState MSExchangeSA=started MSSEARCH=stopped ShowFail

CheckProcState ShowAll ShowFail
CheckProcState ShowFail *prozess*

CheckMem MaxWarn=*size* MaxCrit=*size*
MinWarn=*size* MinCrit=*size* ShowAll
type=*typ*

CheckCounter MaxWarn=*number* MaxCrit=*number*
MinWarn=*number* MinCrit=*number* showAll
Averages=*value* Counter=*countername*

C:\Programme\Nagios\nsclient++> **nsclient++CheckSystem listpdh > All.txt**

CheckCounter "Counter:Logins=\Terminal services\Active
sessions" MaxWarn=2
0 MaxCrit=30 showAll

OK: Login: 1|'Login'=1;20;30;

CheckEventLog file=**typ** filter=*value* truncate=*number*
MaxWarn=*number* MaxCrit=
*number* descriptions filter*modetype*=*string*

file=Application file=Security file=System

filter+eventType==warning

filter.eventSource=substr:KCC

filter-generated⇒2d

filter.message=regexp:(hans|lisa)

filter.eventID==7031

user@linux:nagios/libexec$ **./check_nrpe -H 172.17.133.10** \
 **-c check_inject -a 'CheckEventLog** \
 **file=System filter=in filter=all filter.eventID==7031** \
 **filter.generated=<1d filter.message=substr:NSClientpp** \
 **MaxWarn=1 MaxCrit=2 descriptions'**
Service Control Manager(error, 7031, error)[NSClientpp (Nagios) 0.2.7 20 07-03-06, 1,
 60000, 1, Starten Sie den Dienst neu., ], : 1 > warning|''= 1;1;2;

CheckAlwaysOK CheckFileSize ...

CheckMultiple command=CheckFileSize ... command=CheckUpTime ... command=...

[ports]
com1.1=01

linux:local/pcmeasure # **./pcmeasure ./pcmeasure4linux.cfg**

pcmeasure.*interface.slot*<CR><LF>

*port*;valid=*validity*;value=*value*;...

user@linux:~$ **telnet localhost 4000**
Trying 127.0.0.1...
Connected to localhost.
Escape character is '^]'.
**pcmeasure.com1.1**
port13;valid=1;value=22.59;counter0=10627;counter1=14373;
Connection closed by foreign host.

nagios@linux:nagios/libexec$ **./check_pcmeasure2.pl -H 192.168.1.199** \
 **-S com1.1 -w 18.0:22.0 -c 16.0:24.0**
WARNING: Value com1.1: 23.5 |value=23.5;18.0:22.0;16.0:24.0;

define command{
    command_name **check_temp_max**
    command_line   $USER1$/**check_pcmeasure2.pl** -H $HOSTADDRESS$ -S $ARG1$
-w $ARG2$ -c $ARG3$
}
define command{
    command_name **check_temp_max_rrd**
    command_line   $USER1$/**check_pcmeasure2.pl** -H $HOSTADDRESS$ -S $ARG1$
-w $ARG2$ -c $ARG3$ -R $ARG4$
}

define service{
    host_name             linux01
    service_description   Room temperature
    max_check_attempts    1
    normal_check_interval 2
  **check_command check_temp_max_rrd!com1.1!18.0:22.0!16.0:24.0!/var/lib**
**/rrd/temperatur-serverroom1.rrd**

  ...
}

linux:~ # **mkdir /usr/local/sap**
linux:~ # **cd /usr/local/sap**
linux:local/sap # ***/path/to/*SAPCAR -xvf RFC_OPT_46C.SAR**
SAPCAR: processing archive RFC_OPT_46C.SAR
x rfcsdk
x rfcsdk/bin
x rfcsdk/bin/sapinfo
...

nagios@linux:~$ **cd /usr/local/sap/rfcsdk/bin**
nagios@linux:rfcsdk/bin$ **./sapinfo ashost=10.128.254.13 sysnr=01**

SAP System Information
--------------------------------------------

Destination           p10ap013_P10_01
Host                  p10ap013
System ID             P10
Database              P10
DB host               P10DB012
DB system             ORACLE

SAP release           620
SAP kernel release    640

RFC Protokoll         011
Characters            1100 (NON UNICODE PCS=1)
Integers              LIT
Floating P.           IE3
SAP machine id        560

Timezone              3600

nagios@linux:rfcsdk/bin$ **./sapinfo r3name=P10 mshost=10.128.254.12 \
    group=ISH**

ERROR      service 'sapmsP10' unknown

sapmsP10    3600/tcp

linux:~ # **cp /usr/local/src/nagios-plugins-1.4/contrib/check_sap.sh \
   /usr/local/nagios/libexec/**.

sapinfocmd='/usr/local/sap/rfcsdk/bin/sapinfo'

./check_sap.sh: line 79: /usr/sap/rfcsdk/bin/sapinfo: No such file or directory
OK - SAP server available.

check_sap.sh as *connect_string system_number*
check_sap.sh ms *connect_string SID logon_group*

nagios@linux:nagios/libexec$ **./check_sap.sh as 10.128.254.13 01**
OK - SAP server p10ap013_P10_01 available.

nagios@linux:nagios/libexec$ **./check_sap.sh ms 10.128.254.12 P10 ISH**
OK - SAP server p10ap014_P10_02 available.

define command{
    command_name **check_sap_as**
    command_line   $USER1$/**check_sap.sh** as $HOSTADDRESS$ $ARG1$
}
define command{
    command_name **check_sap_ms**
    command_line   $USER1$/**check_sap.sh** ms $HOSTADDRESS$ $ARG1$ $ARG2$
}

$USER1$/**check_sap.sh** as /H/sapgw/S/3297/H/$HOSTADDRESS$ $ARG1$

define service{
    service_description    SAP_AS
    host_name              sap01
    **check_command**      **check_sap_as!00**
    ...
}

define service{
    service_description    SAP_MS_ISH
    host_name              sap09
    **check_command**   **check_sap_ms!P10!ISH**
    ...
}

[LOGIN_*template*]
LOGIN=-d *target* -u *user* -p *password* -c *client-id* -h *address*
    -s *system_number*

[LOGIN_P10]
LOGIN=-d P10 -u *user* -p *secret* -c 020 -h p10ap013 -s 01

[TEMPLATE_*name*]
DESCRIPTION *description*
MONI_SET_NAME= *monitor collection*
MONI_NAME= *name_of_the_monitor*
PATTERN_0=SID\*context\monitor_object\attribute*

[TEMPLATE_00]
DESCRIPTION=Dialog response time
MONI_SET_NAME=SAP CCMS Monitor Templates
MONI_NAME=Dialog Overview
PATTERN_0=*

nagios@linux:nagios/libexec$ **./check_sap_cons 00 P10**
...
P10 p10ap013_P10_01 Dialog ResponseTime 262 msec
P10 p10ap014_P10_02 Dialog ResponseTime 61 msec
P10 p10db012_P10_00 Dialog ResponseTime 11 msec
...

*SID context monitor_object attribute value*

nagios@linux:nagios/libexec$ **./check_sap_cons 01 P10**
P10 p10ap013_P10_01 Dialog FrontEndNetTime 383 msec
P10 p10ap014_P10_02 Dialog FrontEndNetTime 673 msec
P10 p10db012_P10_00 Dialog FrontEndNetTime 1491 msec

nagios@linux:nagios/libexec$ **./check_sap_cons 00 P10**
<== RfcLastError
FUNCTION: SXMI_LOGON
RFC operation/code SYSTEM_FAILURE
ERROR/EXCEPTION
key     :
status  :
message : User account not in validity date
internal:
<==  RfcClose

message : User 910WOB has no RFC authorization for function group SXMI.

nagios@linux:nagios/libexec$ **./check_sap_cons 01 P10**
No information gathered! System up?

nagios@linux:nagios/libexec$ **./check_sap_mult_no_thr 00 P10**
<table>
<tr><td CLASS='statusOK'>P10 p10ap013_P10_01 <br>
        Dialog ResponseTime 785 msec</td></tr>
<tr><td CLASS='statusOK'>P10 p10ap014_P10_02 <br>
        Dialog ResponseTime 352 msec</td></tr>
<tr><td CLASS='statusOK'>P10 p10db012_P10_00 <br>
        Dialog ResponseTime 22 msec</td></tr>
</table>

define command{
    command_name **check_sap_ccms**
    command_line $USER1$/**check_sap_mult_no_thr** $ARG1$ $ARG2$
}

define service{
   service_description     SAP Dialog Response Time
   host_name     sap01
    **check_command**  **check_sap_ccms!00!P10**
   ...
}

linux:~ # **cd /usr/local/src**
linux:local/src # **tar xvzf** /pfad**/eventdb.tgz**
eventdb/
eventdb/plugin/
eventdb/plugin/check_eventdb.pl
eventdb/agenten/
eventdb/agenten/syslog-ng/
eventdb/agenten/syslog-ng/syslog-ng2mysql
eventdb/agenten/syslog-ng/syslog-ng.conf
eventdb/agenten/syslog-ng/syslog-ng2mysql.pl
...
eventdb/db/
eventdb/db/create_tables.sql
eventdb/webinterface/
eventdb/webinterface/index.php
...
eventdb/cleanup/
eventdb/cleanup/eventdb-clean_database.sh
eventdb/cleanup/rotate_eventdb.sh
...

linux:~ # **mysql -p**
mysql> **CREATE DATABASE eventdb;**
Query OK, 1 row affected (0.01 sec)

mysql> **GRANT SELECT,INSERT,UPDATE,DELETE ON eventdb.* TO** \
 **'eventdb'@'localhost' IDENTIFIED by** 'mypassword';
Query OK, 0 rows affected (0.00 sec)
mysql> **quit**
Bye

linux:~ # **cd /usr/local/src/eventdb**
linux:src/eventdb # **mysql -p eventdb < db/create_tables.sql**

user@linux:~$ **mysql -u eventdb -p eventdb**
mysql> **show tables;**
+-------------------+
| Tables_in_eventdb |
+-------------------+
| comments          |
| events            |
+-------------------+
2 rows in set (0.00 sec)

mysql> **describe events;**
+-------------+---------------------+-----+-----+---------------+
| Field       | Type                | Null| Key | Default       |
+-------------+---------------------+-----------+---------------+
| uid         | int(11)             | NO  | PRI | NULL          |
| type        | varchar(50)         | NO  | MUL |               |
| host        | varchar(50)         | NO  | MUL |               |
| facility    | varchar(50)         | NO  | MUL |               |
| priority    | varchar(20)         | NO  | MUL |               |
| level       | varchar(10)         | NO  |     |               |
| tag         | varchar(10)         | NO  |     |               |
| program     | varchar(50)         | NO  |     |               |
| datetime    | datetime            | NO  |     | 0000-00-00 00:00:00 |
| message     | blob                | NO  | MUL |               |
| acknowledged| tinyint(1) unsigned | NO  |     | 0             |
+-------------+---------------------+-----+-----+---------------+
11 rows in set (0.00 sec)

template t_eventdb {
  template("$HOST\t$FACILITY\t$PRIORITY\t$LEVEL\t$TAG\t$YEAR-$MONTH-$DAY
\t$HOUR:$MIN:$SEC\t$PROGRAM\t$MSG\n");
  template_escape(no);
};
destination d_eventdb {
  pipe("/var/run/syslog-ng.pipe" template(t_eventdb));
};
destination df_eventdb {
  file("/var/log/eventdb" template(t_eventdb));
};

source local {
    unix-stream("/dev/log");
    internal();
};
source remote {
   udp( ip(0.0.0.0) port(514) );
};

filter f_warn {
   level(warn .. alert);
};

log {
   source(local); source(remote);
   filter(f_warn);
   destination(d_eventdb);
   # destination(df_eventdb);
};

FIFO="/var/run/syslog-ng.pipe"
test -p $FIFO || mkfifo $FIFO

my $db      = "eventdb";
my $dbhost  = "localhost";
my $dbuser  = "eventdb";
my $dbpass  = *"mypasswd";*
my $dbtable = "events";

linux:~ # **/etc/init.d/syslog-ng2mysql start**
linux:~ # **/etc/init.d/syslog-ng restart**

user@linux:~$ **mysql -u eventdb -p eventdb**
mysql> **select * from events;**
...

user@linux:~$ **logger -p daemon.warn "hallo wob"**

// Database
cset('db.user', 'eventdb');
cset('db.pass', '*mypasswd')*;
cset('db.host', 'localhost');
cset('db.name', 'eventdb');

cset('page.maxrows', 20);

http://*nagios-server*/nagios/eventdb/index.php?host[0]=swobspace

event.php?message=%2ABad%20TCP%2A

nagios@linux:nagios/libexec$ **./check_eventdb.pl --dbuser=eventdb** \
 **--dbpassword=secret --facility daemon --priority err -m "snmpd%" \**
 **-w 1 -c 2 --label=syslog-snmpd**
CRITICAL: syslog-snmpd 6 matches found!|matches=6

define command {
   command_name check_eventdb
   command_line $USER1$/check_eventdb.pl --dbuser=eventdb --dbpass=$USER
9$ $ARG1$
}

define service {
    host_name             nagios
    service_description syslog_snmpd
    check_command       check_eventdb!--facility daemon --priority err -m
    "snmpd%" -w 1 -c 2 --label=syslog-snmpd
    ...
}

user@linux:~$ **mysql -u eventdb -p eventdb**
mysql> **SELECT * FROM events WHERE datetime < '2007-11-16'**
    -> **AND acknowledged;**

#!/bin/bash
OLDDATE='date --date '-2 weeks' "+%Y-%m-%d %H:%M:%S"'
MYSQL="mysql --user=eventdb --password*mypassword* eventdb"

$MYSQL --execute="DELETE FROM events WHERE datetime < '$OLDDATE' AND acknowledged;"
$MYSQL --execute="optimize table events;"

SELECT *
   INTO OUTFILE '/var/backups/eventdb/$OLDDATE.txt'
   FIELDS TERMINATED BY '\t'
   FROM events WHERE datetime < '2007-11-16' AND acknowledged;

C:\Windows\system32> **evtsys -i -h** syslogserver
C:\Windows\system32> **net start evtsys**

C:\Windows\system32> **net stop evtsys**
C:\Windows\system32> **evtsys -u**

linux:local/src # **tar xvzf /**pfad*/snmptt_1.2.tgz*
linux:local/src # **cd snmptt_1.2**
linux:src/snmptt_1.2 # **cp snmptt snmptthandler snmpttconvertmib /usr/sbin/**.
linux:src/snmptt_1.2 # **chmod +x /usr/sbin/snmptt***
linux:src/snmptt_1.2 # **cp snmptt.ini /etc/snmp/**.

# /etc/snmp/snmptrapd.conf
traphandle default /usr/sbin/snmptt

# /etc/default/snmpd (Debian)
...
TRAPDRUN=**yes**
TRAPDOPTS='-Lsd **-On** -p /var/run/snmptrapd.pid'

[General]
mode = standalone
net_snmp_perl_enable = **1**
mibs_environment = **ALL**
...
[Logging]
log_enable = 1
log_system_enable = 1
unknown_trap_log_enable = 1
syslog_enable = 1
syslog_level = warning
...
[TrapFiles]
snmptt_conf_files = <<END
**/etc/snmp/snmptt/snmptt.conf**
**/etc/snmp/snmptt/messbox.conf**
END

USAGE: snmptranslate [OPTIONS] OID [OID]...

user@linux:~$ **/usr/sbin/snmpttconvertmib** \
 **--in=/usr/share/snmp/mibs/rfc1628-UPS.mib** \
 **--out=rfc1628-UPS.conf**
....
Done

Total translations:            4
Successful translations:       4
Failed translations:           0

EVENT upsTrapOnBattery .1.3.6.1.2.1.33.2.1 "Status Events" CRITICAL
FORMAT UPS On Battery - Utility Power Failure: The UPS is operating on ba
ttery power (Minutes Remaining=%0 Seconds on Battery=$1)
...

*TYPE_OF_CHECK STATUS-text information*

SMTP OK - 0 second response time
CHECKSAP OK - system p10db012_P10_00 available
PROCS WARNING: 4 processes with command name 'pppoe'

linux:~ # **perl -MCPAN -e 'install Nagios::Plugin'**
...

use FindBin;
use lib "$FindBin::Bin/../perl/lib";
use Nagios::Plugin;

user@linux:~$ **du -cs /var/spool/var/log**
26524   /var/spool
745640  /var/log
772164  total

#!/usr/bin/perl -w
use strict;
use warnings;
use FindBin;
use lib "$FindBin::Bin/../perl/lib";
use Nagios::Plugin;

my $np = Nagios::Plugin->new(shortname ⇒ "CHECK_DU");

CHECK_DU OK - check size: 1128 kByte | size=1128kB;;

open ( OUT, "LANG=C /usr/bin/du -cs $what 2>&1 |" )
   or $np->nagios_die( "can't start /usr/bin/du" );
while (<OUT>) {
   print "$_" if ($verbose);
   chomp $_;
   $denied++ if ( /Permission denied/i );
   if ( /^(\d+)\s+total$/i ) {
      $size = $1;
      last;
   }
}
close (OUT);

use Getopt::Long qw(:config no_ignore_case bundling);

GetOptions(
    "P|path=s"         ⇒ \$what,
    "w|warning=s"      ⇒ \$warn threshold,
    "c|critical=s"     ⇒ \$crit threshold,
    "t|timeout=s"      ⇒ \$timeout,
    "h|help"           ⇒ \$help,
    "V|version"        ⇒ \$printversion,
    "v|verbose+"       ⇒ \$verbose,
    "d|debug:+"        ⇒ \$debug,
) or *die_with_help;*

"P|path|directory=s"

GetOptions(...) or *die_with_help;*

#!/usr/bin/perl -w
**=head1** NAME

check_du.pl - Nagios plugin for checking size of directories and files

**=head1** SYNOPSIS

check_du.pl -P path/pattern [-v] [-w warning_threshold] [-c critical_threshold]
check_du.pl [-h|-V]

**=head1** OPTIONS

**=over 4**

**=item** -P|--path=expression

Path expression for calculating size. May be a shell expression like /var/log/*****.log

**=item** -w|--warning=threshold

threshold can be max (warn if < 0 or > max), min:max (warn if < min or > max), min:
 (warn if < min), or @min:max (warn if >= min and <= max). All values must be integer.

**=item** -c|--critical=threshold

see --warning for explanation of threshold format

...
**=cut**

... *perlcode* ...

`=head1` AUTHOR

...

`=cut`

pod2usage(
   -msg     ⇒ *$message_text*,
   -exitval ⇒ *$exit_status*,
   -verbose ⇒ *$verbose*,
   -output  ⇒ *$filehandle*,
);

-verbose ⇒ 99,
-sections ⇒ "NAME|SYNOPSIS|OPTIONS|AUTHOR",

-output ⇒ \*STDOUT,

GetOptions( ...
) or pod2usage(
   -exitval ⇒ UNKNOWN,
   -verbose ⇒ 0,
   -msg     ⇒ "******* unknown option or argument found *******",
);

pod2usage(
   -verbose ⇒ 2,
   -exitval ⇒ UNKNOWN,
   -output ⇒ \*STDOUT,
) if ( $help );

=head1 LICENSE
This program is free software; you can redistribute it and/or modify it under the
 terms of the GNU General Public License as published by the Free Software Foundation;
 either version 2 of the License, or (at your option) any later version.

...

You should have received a copy of the GNU General Public License along with this
 program; if not, write to the Free Software Foundation, Inc., 51 Franklin Street,
 Fifth Floor, Boston, MA 02110-1301, USA.

=cut
...
pod2usage(
   -msg      ⇒ "\n$0 -- version: $version\n",
   -verbose  ⇒ 99,
   -sections ⇒ "NAME|LICENSE",
   -output   ⇒ STDOUT,
   -exitval  ⇒ UNKNOWN,
) if ( $printversion );

pod2usage(
   -msg       ⇒ "******* no path/pattern specified *******",
   -verbose   ⇒ 0,
   -exitval   ⇒ UNKNOWN,
) unless $what;

$np->set_thresholds(
   warning  ⇒ $warn_threshold,
   critical ⇒ $crit_threshold,
);

$result = $np->check_threshold($size);

$np->nagios_exit($result, "check size: $size kByte");

# ... GetOptions ...
alarm($timeout);
# ... core code ...
alarm(0);
# ... end

$SIG{ALRM} = sub {
   $np->nagios_die("Timeout reached");
}

$np->add_perfdata(
   label ⇒ "size",
   value ⇒ $size,
   uom ⇒ "kB",
   threshold ⇒ $np->threshold(),
);

rootproperty=10.0

[math]
pi=3.1415
euler=2.78

$Config = Nagios::Plugin::Config->read('/etc/nagios/myplugin.ini');

my $rootproperty = $Config->{_}->{rootproperty};
my $pi    = $Config->{math}->{pi};
my $euler = $Config->{math}->{euler};

$Config->{math}->{pi};

$Config->{_}->{rootproperty};

linux:~ # **mkdir /usr/local/oracle**
linux:~ # **cd /usr/local/oracle**
linux:local/oracle # **unzip instantclient-basic-linux32-10.1.0.3.zip**
Archive: instantclient-basic-linux32-10.1.0.3.zip
  inflating: instantclient10_1/classes12.jar

...
linux:local/oracle # **unzip instantclient-sqlplus-linux32-10.1.0.3.zip**
Archive:  instantclient-sqlplus-linux32-10.1.0.3.zip
  inflating: instantclient10_1/READFROM_IC.htm
  inflating: instantclient10_1/glogin.sql
  inflating: instantclient10_1/libsqlplus.so
  inflating: instantclient10_1/sqlplus

LD_LIBRARY_PATH=/usr/local/oracle/instantclient10_1
SQLPATH=/usr/local/oracle/instantclient10_1

sqlplus *user/password@//host/database*

user@linux:~$ **sqlplus wob/**password**@//192.168.1.9/DEMO**

SQL*Plus: Release 10.1.0.3.0 - Production on Sat Aug 13 14:12:52 2005
...
SQL> **quit**
Disconnected from Oracle8i Release 8.1.7.0.0 - Production
JServer Release 8.1.7.0.0 - Production

user@linux:~$ **echo "select trash from nothing"** |\
 **sqlplus -i wob/**password**@//192.168.1.9/DEMO**
select trash from nothing
               *****

ERROR at line 1:
ORA-00942: table or view does not exist

*sql-statement* | sqplus *arguments* | *output_processing*

use IPC::Open2;

open2(*READFROM, *WRITETO, *program, list_of_arguments*);
print WRITETO "*instruction_via_standard_input*\n";

while (<READFROM>) {
*processed_standard_output*;
}

close(READFROM);
close(WRITETO);

#!/usr/bin/perl -w
use strict;
use warnings;
use IPC::Open2;

my $ipath = "/usr/local/oracle/instantclient10_1";
my $sqlplus = "$ipath/sqlplus";
my $connectstring = "wob/*password*@//192.168.1.9/DEMO";

# -- Set environment variables
$ENV{'LD_LIBRARY_PATH'} = $ipath;
$ENV{'SQLPATH'} = $ipath;

# -- SQL-Statement
my $select = "SELECT table_name FROM all_tables ";
   $select .= " where table_name = 'VERSION';";

# -- open2 with error processing
eval {
   open2(*READFROM, *WRITETO, $sqlplus, "-s", $connectstring);
};
if ($@) {
   die "Error in open2: $!\n$@\n";
}

# -- Write instruction
print WRITETO $select;
close(WRITETO);

# -- Process reply
while (<READFR0M>) {
   print $_;
}

TABLE NAME
--------------------
VERSION

no rows selected

# -- Process response
while (<READFR0M>) {
   if ( /^VERSION/i ) {
      print "OK - Table VERSION found\n";
      exit 0;
   } elsif (/no rows selected/i) {
      print "WARNING - Table VERSION not found\n";
      exit 1;
   } elsif (/ERROR/i) {
      print "CRITICAL - SQL-Statement failed\n";
      exit 2;
   }
}
close(READFROM);
print "UNKNOWN - unknown response\n";
exit 3;

# /etc/nagios/nagios.cfg
...
enable_flap_detection=1
low_service_flap_threshold=5.0
high_service_flap_threshold=20.0
...

define service{
    host_name              linux01
    service_description    NTP
    ...
    flap_detection_enabled 1
    low_flap_threshold     5.0
    high_flap_threshold    20.0
    ...
}

flap_detection_options u,w,c,u

max_check_attempts    3
normal_check_interval                 5
retry_check_interval                  1

# /etc/nagios/nagios.cfg
enable_flap_detection=1
low_host_flap_threshold=5.0
high_host_flap_threshold=20.0

define host{
    host_name              linux01
    ...
    flap_detection_enabled 1
    low_flap_threshold     5.0
    high_flap_threshold    20.0
}

normal_check_interval 5
retry_check_interval  2
max_check_attempts    4

define service{
    host_name             printserver
    service_description   LPD
    ...
  **event_handler**  **restart-lpd**
    ...
}

define command{
    command_name **restart-lpd**
    command_line $USER1$/eventhandler/restart-lpd.sh $SERVICESTATE$ $SER
VICESTATETYPE$ $SERVICEATTEMPT$
}

#!/bin/bash
# /usr/local/nagios/libexec/eventhandlers/restart-lpd.sh
# $1 = Status, $2 = status type, $3 = attempt

case $1 in
   OK)
      ;;
   WARNING)
      ;;
   CRITICAL)
      if [ $2 == "HARD" ] || [[ $2 == "SOFT" && $3 -eq 3 ]]; then
         echo "Restarting lpd service"
         /usr/bin/sudo /etc/init.d/lpd restart
      fi
      ;;
   UNKNOWN)
      ;;
esac
exit 0

linux:~ # **visudo**

nagios nagsrv=(root) NOPASSWD: /etc/init.d/lpd

define command{
   command_name check_http
   command_line $USER1$/check_http -H $HOSTADDRESS$ $ARG1$
}

define host{
   host_name linux01
   address 192.0.2.1
   ...
}

define service{
  host_name            linux01

  service_description  HTTP
  check_command        check_http!-u test.html
  ...
}

#!/bin/bash
# badscript

HOST=$NAGIOS_HOSTADDRESS
...

define command{
command_line $USER1$/badscript
...
}

define command{
   command_line $USER1$/goodscript $HOSTADDRESS$
...
}

#!/bin/bash
# goodscript

HOST=$1
...

$HOSTADDRESS:linux01$
$HOSTSTATE:switch05$

$SERVICESTATE:switch05:PING$
$SERVICESTATE::NRPE$

$CONTACTNAME:gregor$
$CONTACTEMAIL:smith$

define host {
   host_name         linux01
   ...
   _NSCLIENT_PORT 12489
   _ASSETID       734287
}
define service {
   host_name           linux01
   service_description HTTP
   ...
   _HTTP_PORT          8080
}
define contact {
   contact_name wob
   ...
   _DEPARTMENT  41ZBV
}

$_HOSTNSCLIENT_PORT$
$_HOSTASSETID$
$_SERVICEHTTP_PORT$
$_CONTACTDEPARTMENT$

define host {
   host_name       linux01
   ...
   __NSCLIENT_PORT 12489
   __ASSETID       734287
}

$_HOST_NSCLIENT_PORT$
$_HOST_ASSETID$

illegal_object_name_chars='~$^&'<>

HTTP/1.1 401 Authorization Required
...
WWW-Authenticate: Negotiate
WWW-Authenticate: NTLM
WWW-Authenticate: Basic realm="Nagios Monitoring"
...

**GET /nagios/index.html HTTP/1.1**
...
**Authorization: Negotiate YIIIlwYGKwYBBQUCoIIIizCCCIegJDA..**.

HTTP/1.1 200 OK
...
WWW-Authenticate: Negotiate oYGeMIGbo...

HTTP/*fqdn*@EXAMPLE.NET

C:\> **cd \Programs\Support Tools**
C:\Programs\Support Tools> **ktpass -princ HTTP/nagios.example.net@EXAMP**
**LE.NET -mapuser webnagios@example.net -pass ***** -out c:\temp\webnagios**
**http.keytab**

Targeting domain controller: dc01.example.net
Successfully mapped HTTP/nagios.example.net
to webnagios. Key created. Output keytab to
c:\temp\webnagioshttp.keytab: Keytab version:
0x502 keysize 81 HTTP/nagios.example.net@EXAMPLE.NET
ptype 1 (KRB5_NT_PRINCIPAL) vno 3 etype 0x3 (DES-CBC-MD5)
keylength 8 (0x7fc42302a7342952) Account webnagios has
been set for DES-only encryption.

# /etc/krb5.conf
[libdefaults]
   default_realm = EXAMPLE.NET

[realms]
   EXAMPLE.NET = {
        kdc = dc01.example.net:88
        kdc = dc02.example.net:88
        admin_server = dc01.example.net
}

linux:~ # **kinit administrator@EXAMPLE.NET**
Password for administrator@EXAMPLE.NET: ******

linux:~ # **klist**
Ticket cache: FILE:/tmp/krb5cc_0
Default principal: administrator@EXAMPLE.NET

Valid starting      Expires     Service principal
08/26/07 14:31:47   08/27/07 00:31:49 krbtgt/EXAMPLE.NET@EXAMPLE.NET
      renew until 08/27/07 14:31:47

Kerberos 4 ticket cache: /tmp/tkt0
klist: You have no tickets cached

LoadModule auth_kerb_module /usr/lib/apache2/modules/mod_auth_kerb.so

linux:~ # **a2enmod auth_kerb**
Module auth_kerb installed; run /etc/init.d/apache2 force-reload to enable.

<Directory "/usr/local/nagios">
   AllowOverride None
   Order allow,deny
   Allow from all

   # -- Authentification
   AuthType Kerberos
   AuthName "Nagios Monitoring"
   KrbAuthRealms EXAMPLE.NET
   Krb5Keytab /etc/apache2/keytabs/webnagioshttp.keytab
   KrbMethodK5Passwd on
   KrbMethodNegotiate on
   KrbSaveCredentials off

   require valid-user
</Directory>

define contact{
        use            template-contact-webuser
        contact_name   wob@EXAMPLE.NET
        alias          wob@EXAMPLE
        contactgroups  admins
        email          w.barth@example.net
}

linux:~ # **cd /usr/local/src/mod_auth_ntlm_winbind**
linux:src/mod_auth_ntlm_winbind # **autoconf**
...
linux:src/mod_auth_ntlm_winbind # **./configure**
...
linux:src/mod_auth_ntlm_winbind # **apxs2 -DAPACHE2 -c -i mod_auth_ntlm_ \**
**winbind.c**
...

LoadModule auth_ntlm_winbind_module /usr/lib/apache2/modules/mod_auth_nt
lm_winbind.so

linux: # **/etc/init.d/apache2 stop; /etc/init.d/apache2 start**

# /etc/samba/smb.conf (Minimalkonfiguration)
[global]
workgroup             =EXAMPLE
realm                 =EXAMPLE.NET
security              =ads
password server       =dc01.example.net dc02.example.net
encrypt passwords     =yes
idmap uid             =10000-20000
idmap gid             = 10000-20000
winbind enum users    =yes
winbind enum groups   =yes
winbind separator     = /
# winbind use default domain = yes
hosts allow           =127.0.0.1

linux:~ # **net ads join -U administrator@EXAMPLE.NET**
administrator's password: ******
Using short domain name - EXAMPLE
Joined 'NAGIOS' to realm 'EXAMPLE.NET'

linux:~ **# /etc/init.d/samba restart**
linux:~ **# /etc/init.d/winbind restart**

linux:~ **# wbinfo -t**
checking the trust secret via RPC calls succeeded

user@linux:~$ **chgrp www-data /var/lib/samba/winbindd_privileged**
user@linux:~$ **chmod 750 /var/lib/samba/winbindd_privileged**
user@linux:~$ **ls -ld /var/lib/samba/winbindd_privileged**
drwxr-x— 2 root www-data 4096 Aug 26 17:51 /var/lib/samba/winbindd_pri
vileged/

<Directory "/usr/local/nagios">
  AllowOverride None
  Order allow,deny
  Allow from all

  AuthName "Nagios Monitoring"
  # -- NTLM
  AuthType NTLM
  NTLMAuth on
  NTLMAuthHelper "/usr/bin/ntlm_auth --helper-protocol=squid-2.5-ntlmssp"

  # -- Basic
  NTLMBasicAuth on
  NTLMBasicAuthoritative on
  PlaintextAuthHelper "/usr/bin/ntlm_auth --helper-protocol=squid-2.5-bas
ic"
  NTLMBasicRealm "Nagios Monitoring (Basic)"

  # -- Negotiate
  # AuthType Negotiate
  # NegotiateAuth on
  # NegotiateAuthHelper "/usr/bin/ntlm_auth --helper-protocol=gss-spnego"

   require valid-user
</Directory>

define contact{
       use           template-contact-webuser
       contact_name  EXAMPLE/wob
       ...
}

user@linux:~$ **kinit myuser@EXAMPLE.NET**
Password for myuser@EXAMPLE.NET: ******

user@linux:~$ /usr/local/nagios/bin/nagiostats -c /etc/nagios/nagios.cfg
Nagios Stats 3.0b3
Copyright (c) 2003-2007 Ethan Galstad (www.nagios.org)
Last Modified: 08-30-2007
License: GPL

CURRENT STATUS DATA
-----------------------------------------------------
Status File:                              /var/nagios/status.dat
Status File Age:                          0d 0h 0m 5s
Status File Version:                      3.0b3

Program Running Time:                     1d 23h 26m 57s
Nagios PID:                               8184
**Used/High/Total Command Buffers:          0 / 1 / 4096**

Total Services:                           1997
Services Checked:                         1997
Services Scheduled:                       1995
Services Actively Checked:                1995
Services Passively Checked:               2
Total Service State Change:               0.000 / 30.260 / 0.040 %
**Active Service Latency:                   0.000 / 2.233 / 0.361 sec**
Active Service Execution Time:            0.063 / 20.081 / 0.518 sec
Active Service State Change:              0.000 / 7.630 / 0.011 %
Active Services Last 1/5/15/60 min:       308 / 1417 / 1922 / 1944
Passive Service State Change:             26.250 / 30.260 / 28.255 %
Passive Services Last 1/5/15/60 min:      0 / 0 / 0 / 0
Services Ok/Warn/Unk/Crit:                1904 / 61 / 5 / 27
Services Flapping:                        2
Services In Downtime:                     0

Total Hosts:                              166
Hosts Checked:                            166
Hosts Scheduled:                          166
Hosts Actively Checked:                   166
Host Passively Checked:                   0
Total Host State Change:                  0.000 / 0.000 / 0.000 %
**Active Host Latency:                      0.000 / 1.527 / 0.638 sec**
**Active Host Execution Time:               0.066 / 0.537 / 0.155 sec**
Active Host State Change:                 0.000 / 0.000 / 0.000 %
Active Hosts Last 1/5/15/60 min:          52 / 148 / 166 / 166
Passive Host State Change:                0.000 / 0.000 / 0.000 %
Passive Hosts Last 1/5/15/60 min:         0 / 0 / 0 / 0
Hosts Up/Down/Unreach:                    166 / 0 / 0
Hosts Flapping:                           0
Hosts In Downtime:                        0

Active Host Checks Last 1/5/15 min:       59 / 209 / 622
   Scheduled:                             54 / 154 / 475
   On-demand:                             5 / 43 / 108
   Parallel:                              59 / 198 / 584
 **Serial:                                0 / 0 / 0**
   Cached:                                0 / 12 / 39
Passive Host Checks Last 1/5/15 min:      0 / 0 / 0
**Active Service Checks Last 1/5/15 min:    345 / 2148 / 6342**
      Scheduled:                          345 / 2148 / 6342
      On-demand:                          0 / 0 / 0
      Cached:                             0 / 0 / 0
Passive Service Checks Last 1/5/15 min:   0 / 0 / 0

External Commands Last 1/5/15 min:        0 / 0 / 0

user@linux:~$ **/usr/local/nagios/bin/nagiostats -h**
 ...
 NUMACTSVCCHECKSxM  number of total active service checks
                    occuring in last 1/5/15 minute
 ...
 xxxACTSVCLAT       MIN/MAX/AVG active service check latency (ms).
 ...

user@linux:~$ **/usr/local/nagios/bin/nagiostats -c /etc/nagios/nagios.cfg\**
  **--mrtg --data=NUMACTSVCCHECKS5M**
2195

user@linux:~$ **/usr/local/nagios/bin/nagiostats -c /etc/nagios/nagios.cfg\**
  **--mrtg --data=MINACTSVCLAT,MAXACTSVCLAT,AVGCTSVCLAT**
0
934
203

# Global configuration
WorkDir: /var/www/mrtg
WriteExpires: Yes

linux:~ # **indexmaker /etc/mrtg.cfg > /var/www/mrtg/index.html**

#!/bin/bash
# Attention: thresholds in milliseconds

WARN=20000
CRIT=60000
TIMESTAMP='date +%s'
CMDFILE='/var/nagios/rw/nagios.cmd'

LATENCY='/usr/local/nagios/bin/nagiostats \
           --config=/etc/nagios/nagios.cfg \
           --mrtg --data=AVGACTSVCLAT'

if [$LATENCY < $WARN ]; then
   STATUS=0; INFO="OK"
elif [$LATENCY < $CRIT ]; then
   STATUS=1; INFO="WARNING"
else
   STATUS=2; INFO="CRITICAL"
fi

CMD="PROCESS_SERVICE_CHECK_RESULT"
OUTCMD="[%lu] $CMD;*nagios-server*;Service Latency;$STATUS;"
OUTINFO="$INFO Service Latency = ${LATENCY}ms "
OUTPERF="svclat=$LATENCY;$WARN;$CRIT;\n"

printf "${OUTCMD}${OUTINFO}|${OUTPERF}" $TIMESTAMP > $CMDFILE

NEW VALUE: /etc/nagios/nagios.cfg

*/3 * * * * nagios /usr/local/nagios/libexec/passive/check_svc_latency.sh
> /dev/null

# -- service latency check
define service{
    host_name                   *nagios-server*
    service_description         Service-Latenz
    active_checks_enabled       0
    passive_checks_enabled      1
    check_freshness             0
    check_command               check_dummy!3!active check, should not happen!
    max_check_attempts          3
    flap_detection_enabled      0

    use                         template-service
}

OUTPERF=**"check_svc_latency::check_svc_latency::svclat**=$LATENCY;$WARN; $CRIT;"

#!/usr/bin/perl
use strict;
use warnings;
...

#!/usr/bin/perl -w
...

my $data = <<DATA;
a 1  30
b 2  40
c 7  80
...
DATA

use vars qw($value);

$result = &mysub( \$value );

# /etc/nagios.cfg
...
enable_embedded_perl=1
use_embedded_perl_implicitly=1
...

#!/usr/bin/perl -w
# nagios: -epn
...

define command{
   command_name    check_disk
   command_line  **/usr/bin/perl** $USER1$/check_disk.pl $ARG1$
}

linux:nagios/contrib **# make mini_epn**
...
linux:nagios/contrib **# make new_mini_epn**
...

linux:nagios/contrib **# cp mini_epn new_mini_epn /usr/local/nagios/bin/**.

user@linux:nagios$ **~cd /usr/local/nagios/bin**
user@linux:nagios$ nagios/bin**./new_mini_epn**
plugin command line:

plugin command line: **/usr/local/nagios/libexec/check_file_age -f /etc/hosts**
embedded perl plugin return code and output was: 2 & FILE_AGE CRITICAL:
/etc/hosts is 3718127 seconds old and 2671 bytes

define host {

   ...
   display_name              *display_name*
   contacts                  *contacts*
   first_notification_delay  *number*
   flap_detection_options    o,d,u
   notification_options      d,u,r,f,s
   initial_state             o,d,u
   retry_interval            *number*

   ...
}

define hostdependency {
   dependency_period  *timeperiod_name*
   ...
}

define servicedependency {
   dependency_period  *timeperiod_name*
   ...
}

define servicedependency {
   host_name                                linux
   service_description                    Disk_Usage
   dependent_service_description NRPE
   ...
}

define hostescalation {
   contacts   *contact*
   ...
}
define serviceescalation {
   contacts *contact*
   ...
}

define host {
   name **host_generic_t**
   register 0
   #
   check_period         24×7
   max_check_attempts   3
   check_interval       10
   retry_interval       2
   ...
   hostgroups           ALL_HOSTS
}
define host {
   name **host_site_t**
   register 0
   #
   check_interval   5
   retry_interval   1
   ...
   parents          switch01
   hostgroups       HAMBURG
}
define host {
   host_name   linux01
   use         **host_site_t,host_generic_t**
   ...
   parents **null**
   hostgroups **+LINUX**
}

define host {
   host_name             linux01
   check_period          24×7
   max_check_attempts    3
   check_interval        5
   retry_interval        1
   ...
   hostgroups            **HAMBURG,LINUX**
}

define host {
   host_name linux01
   use       host_site_t,host_generic_t
   ...
 **_NRPE_PORT** 5666
}

define command {
   command_name check_nrpe
   command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -p $_HOSTNRPE_PORT$
-c $ARG1$
}

enable_environment_macros=0

PROCESS_FILE; *path/to/file; number*

SEND_CUSTOM_SVC_NOTIFICATION;*host; service; options; author; comment*
SEND_CUSTOM_HOST_NOTIFICATION;*host; options; author; comment*

nagios@linux:~$ **/usr/local/nagios/bin/nagios -s /etc/nagios/nagios.cfg**
OBJECT CONFIG PROCESSING TIMES
(* = Potential for precache savings with -u option)
----------------------------------
Read:                 0.019277 sec
Resolve:              0.001001 sec *
Recomb Contactgroups: 0.000737 sec *
Recomb Hostgroups:    0.003890 sec *
Dup Services:         0.005938 sec *
Recomb Servicegroups: 0.048659 sec *
Duplicate:            0.001527 sec *
Inherit:              0.005602 sec *
Recomb Contacts:      0.000001 sec *
Sort:                 0.030277 sec *
Register:             0.010132 sec
Free:                 0.001831 sec
                      ============
TOTAL:                0.128874 sec * = 0.097634 sec (75.76%)
                                       estimated savings

CONFIG VERIFICATION TIMES
(* = Potential for speedup with -x option)
----------------------------------
Object Relationships: 0.013131 sec
Circular Paths:       0.002341 sec *
Misc:                 0.001032 sec
                      ============
TOTAL:                0.016504 sec * = 0.002341 sec (14.2%)
                                       estimated savings

nagios@linux:~$ **/usr/local/nagios/bin/nagios -vp /etc/nagios/nagios.cfg**
nagios@linux:~$ **/etc/init.d/nagios stop**
nagios@linux:~$ **/usr/local/nagios/bin/nagios -udx /etc/nagios/nagios.cfg**

linux:src/nagios-3.0 # **./base/nagios -v /etc/nagios/nagios.cfg**
...

info {
   created=1144429286
   version=2.0
}

linux:~ **# /etc/init.d/nagios stop**
linux:~ **# cd /var/nagios**
linux:var/nagios # cat **comments.dat downtime.dat >> retention.dat**

linux:src/nagios-3.0 # **make install**
...
linux:src/nagios-3.0 # **make install-init**
...
linux:src/nagios-3.0 # **make install-commandmode**
...

属性	值	配置选项
根目录	`/usr/local/nagios`	`--prefix`
配置目录	`/etc/nagios`	`--sysconfdir`
变量数据目录	`/var/nagios`	`--localstatedir`
Nagios 用户（用户 ID）	`nagios (9000)`	`--with-nagios-user`
Nagios 组（组 ID）	`nagios (9000)`	`--with-nagios-group`
Nagios 命令组（组 ID）	`nagcmd (9001)`	`--with-command-group`

目录	内容
`./bin`	可执行的 Nagios 主程序
`./libexec`	插件
`./sbin`	CGI 脚本
`./share`	文档，Web 界面的 HTML 文件

值	表示
`us`	MM-DD-YYYY HH:MM:SS
`euro`	DD-MM-YYYY HH:MM:SS
`iso8601`	YYYY-MM-DD HH:MM:SS
`strict-iso8601`	YYYY-MM-DDTHH:MM:SS

`d`	停机
`u`	不可达（由于 Nagios 和主机之间的网络节点失败，主机不可达，无法确定主机的实际状态）
`r`	恢复（错误后的正常状态）
`f`	振荡（状态变化非常快；有关更多信息，请参阅第 611 页的附录 B）。
`s`	计划停机时间（Nagios 3.0 提供有关计划维护期开始和结束的信息，或在计划维护期取消的情况下。此选项在 Nagios 2.x 中不可用。）

简短形式	长形式	描述
^([a])
`-h`	`--help`	输出在线帮助
`-V`	`--version`	输出插件版本
`-v`	`--verbose`	输出额外信息——此选项可以多次给出^([a])
`-H`	`--hostname`	目标的主机名或 IP 地址
`-t`	`--timeout`	超时时间（秒），在此时间后插件将中断操作并返回 CRITICAL 状态
`-w`	`--warning`	指定警告限制值
`-c`	`--critical`	指定临界限制值
`−4`	`--use-ipv4`	强制使用 IPv4
`−6`	`--use-ipv6`	强制使用 IPv6

状态	名称	描述
0	OK	一切正常
1	WARNING	警告限制已超过，但尚未达到临界限制
2	CRITICAL	超过临界限制或插件在超时后中断了测试
3	UNKNOWN	插件内部发生错误（例如使用了错误的参数）

类型	描述
`all`	所有服务
`running`	所有当前活动服务
`stopped`	所有已停止的服务
`automatic`	自动启动的服务
`manual`	必须手动启动的服务
`disabled`	已禁用的服务

插件	页面	描述
`check_dummy.exe`	188	测试插件
`check_http.exe`	119	网站的可达性
`check_smtp.exe`	113	测试邮件服务器
`check_ssh.exe`	131	SSH 可用性
`check_tcp.exe`	132	通用插件
`check_time.exe`	178	两个主机的时钟时间比较
`check_udp.exe`	135	通用插件
`negate.exe`	188	取消插件返回值
`urlize.exe`	189	将 Nagios Web 界面中的插件输出转换为链接

模块	功能
`CheckDisk`	`CheckFileSize`, `CheckDriveSize`
CheckSystem	`CheckCPU`, `CheckUpTime`, `CheckServiceState`, `CheckProcState`, `CheckMem`, `CheckCounter`
CheckEventLog	`CheckEventLog`
CheckHelpers	`CheckAlwaysOK`, `CheckAlwaysCRITICAL`, `CheckAlwaysWARNING`, `CheckMultiple`

插件	描述
^([a])
`check_sap`	以 HTML 格式输出监控数据
`check_sap_cons`	同上，但输出无 HTML 格式和无超链接
`check_sap_instance`	特定应用服务器的对话框响应时间和登录用户数（需要 CCMS Ping^([a]))
`check_sap_instance_cons`	同上，作为无 HTML 标记的文本输出
`check_sap_multiple`	监控模板数据的 HTML 格式输出，返回多个值
`check_sap_mult_no_thr`	与`check_sap_multiple`不同，输出多个值，具有简单的 HTML 格式，无超链接
`check_sap_system`	显示 SAP 系统的应用服务器及其状态（需要 CCMS Ping）
`check_sap_system_cons`	与`check_sap_system`类似，但无 HTML 格式

状态	服务检查	主机检查
0	OK	UP
1	WARNING	UP 或 DOWN/UNREACHABLE^([a])
2	CRITICAL	DOWN/UNREACHABLE
3	未知	DOWN/UNREACHABLE

阈值	覆盖区域
*`end`*	`0:` *`end`*
*`start:`*	*`start:`*∞
`˜:` *`end`*	-∞`:`****`end`
*`@start:end`*	不是*`start:end`*

宏	描述
$HOSTNAME$	主机定义中来自 `host_name` 参数的主机名
$HOSTALIAS$	主机定义中来自 `alias` 参数的别名
$HOSTADDRESS$	主机定义参数中的 IP 地址或 FQDN
$HOSTSTATE$	文本形式的状态：UP，DOWN，UNREACHABLE
$HOSTSTATEID$	数值形式的状态：`0`（UP），`1`（DOWN），`2`（UNREACHABLE）
$HOSTSTATETYPE$	`HARD`，`SOFT`
$HOSTOUTPUT$	主机检查文本输出的第一行
$HOSTLONGOUTPUT$ (Nagios 3.0)	主机检查的长文本，如果提供多行信息
$HOSTPERFDATA$	主机检查的性能数据

宏	描述
$SERVICEDESC$	服务的名称，从服务定义中的参数 `service_description` 中获取
$SERVICESTATE$	文本形式的状态：OK，WARNING，CRITICAL，UNKNOWN
$SERVICESTATEID$	状态的数值：`0`（OK），`1`（WARNING），`2`（CRITICAL），`3`（UNKNOWN）
$SERVICESTATETYPE$	`HARD`，`SOFT`
$SERVICEOUTPUT$	服务检查期间插件文本输出的第一行
$SERVICELONGOUTPUT$ (Nagios 3.0)	服务检查的长文本，如果提供多行输出
$SERVICEPERFDATA$	服务检查的性能数据

宏	描述
$HOSTGROUPNAME$	第一个主组名称
$HOSTGROUPNAMES$	与关联主机相关的所有主机组的一个以逗号分隔的列表
$HOSTGROUPALIAS$	主组别名
$HOSTGROUPMEMBERS$	主机组成员

`−1` 所有信息
`0` 关闭调试
`1` 函数调用开始/结束
`2` 配置信息
`4` 进程信息
`8` 调度细节
`16` 主机和服务的检查
`32` 消息
`64` 事件代理

宏	要读取的参数
$CONTACTNAME$	`contact_name`
$CONTACTALIAS$	`alias`
$CONTACTEMAIL$	`email`
$CONTACTPAGER$	联系的 `pager` 参数
$CONTACTADDRESSn$	六个可能的联系地址之一，其中 `n` 是介于 `1` 和 `6` 之间的数字^([a])

宏	描述
$NOTIFICATIONTYPE$	通知类型（有关值，请参阅文本）
$NOTIFICATIONRECIPIENTS$ (Nagios 3.0)	所有收件人的逗号分隔列表
$HOSTNOTIFICATIONNUMBER$	通知计数器
$SERVICENOTIFICATIONNUMBER$ (Nagios 3.0)	通知计数器

宏	示例
$LONGDATETIME$	`Sa 29 Dec 17:23:22 CET 2007`
$SHORTDATETIME$	`2007-12-29 17:23:22`
$DATE$	`2007-12-29`
$TIME$	`17:23:22`
$TIMET$	`1198945589`

龙哥盟

掠夺·扩张·投机·博弈

Nagios 指南第二版（全）

引言

测试

信息供应商

保持管理员信息更新

关于本书

关于本书的进一步说明

感谢信

第一部分。从源代码到运行安装

第一章。安装

1.1 准备工作

1.1.1 确定和设置所需的用户

1.2 编译源代码

1.3 自动启动 Nagios

1.4 安装和测试插件

1.4.1 安装

1.4.2 插件测试

1.5 配置 Web 界面

1.5.1 设置 Apache

1.5.2 SELinux

1.5.3 用户身份验证

第二章. Nagios 配置

2.1 主配置文件nagios.cfg

简单结构

简单结构

一个更大的位置

具有多个不同位置的较大安装

设置欧洲日期格式

2.2 对象——概述

以下对象示例的注意事项

以下对象示例的注意事项

2.3 使用host定义要监控的机器

2.4 使用 hostgroup 将计算机分组

2.5 使用 service 定义要监控的服务

2.6 使用servicegroup组合服务

2.7 定义错误消息的接收者：contact

2.8 消息接收者：`contactgroup

2.9 当 Nagios 需要做某事时：command对象

2.10 使用 timeperiod 定义时间段

2.11 模板

2.12 为那些懒得输入的人提供的配置辅助

2.12.1 为多台计算机定义服务

2.12.2 为所有计算机使用一个主机组

2.12.3 其他配置辅助工具

2.13 在 cgi.cfg 中的 CGI 配置

2.14 资源文件 resource.cfg

第三章：启动

3.1 检查配置

3.2 开始监控

3.2.1 手动启动

3.2.2 使配置更改生效

3.3 网络界面概览

第二部分：更详细地...

第四章：Nagios 基础

4.1 考虑网络拓扑

4.2 按需主机检查与定期可达性测试的比较

4.3 主机和服务的状态

第五章。服务检查及其执行方式

5.1 直接测试网络服务

5.2 在远程计算机上通过安全壳运行插件

5.3 Nagios 远程插件执行器

5.4 通过 SNMP 监控

5.5 Nagios 服务检查接受者

第六章：网络服务插件

6.1 标准选项

6.2 使用 Ping 进行可达性测试

6.2.1 check_icmp 作为服务检查

6.2.2 check_icmp 作为主机检查

6.3 监控邮件服务器

6.3.1 使用check_smtp监控 SMTP

6.3.2 POP 和 IMAP

6.4 监控 FTP 和 Web 服务器

6.4.1 FTP 服务

6.4.2 通过 HTTP 控制 Web 服务器

6.4.3 监控 Web 代理

使用check_http进行代理测试

使用check_squid进行代理测试

2.1 主配置文件`nagios.cfg`

2.3 使用`host`定义要监控的机器

2.4 使用 `hostgroup` 将计算机分组

2.5 使用 `service` 定义要监控的服务

2.6 使用`servicegroup`组合服务

2.7 定义错误消息的接收者：`contact`

2.9 当 Nagios 需要做某事时：`command`对象

2.10 使用 `timeperiod` 定义时间段

2.13 在 `cgi.cfg` 中的 CGI 配置

2.14 资源文件 `resource.cfg`

6.2.1 `check_icmp` 作为服务检查

6.2.2 `check_icmp` 作为主机检查

6.3.1 使用`check_smtp`监控 SMTP

使用`check_http`进行代理测试

使用`check_squid`进行代理测试

6.5.1 使用 `nslookup` 进行 DNS 检查

6.5.2 使用 `dig` 监控域名服务器

测试插件 `check_pgsql`

测试插件 `check_mysql`

授予插件`root`权限

授予插件`root`权限

6.12 使用`check_ntp_peer`检查 NTP 服务器健康

7.5.1 标准插件 `check.log`