Monit unix监控服务器工具
一、Monit简介
https://github.com/arnaudsj/monit
Monit是一个用于管理和监控Unix系统的小型开源工具. Monit进行自动维护和修理, 并且可以在错误情况下执行有意义的因果作用. 比zabbix轻量.
Monit是一个跨平台的用来监控Unix/linux系统(比如Linux、BSD、OSX、Solaris)的工具。Monit特别易于安装,而且非常轻量级(只有500KB大小),并且不依赖任何第三方程序、插件或者库。
Monit可以监控服务器进程状态、HTTP/TCP状态码、服务器资源变化、文件系统变动等等,根据这些变化,可以设定邮件报警、重启进程或服务。易于安装、轻量级的实现以及强大的功能,让Monit成为一个理想的后备监控工具。
官网:https://mmonit.com/monit
文档:https://mmonit.com/monit/documentation/monit.html
最新版本:https://mmonit.com/monit/dist/monit-5.20.0.tar.gz
二、安装
yum install monit
源码安装,请查看github

三、常用命令
-
monit -t # 配置文件检测 -
monit # 启动monit daemon -
monit -c /var/monit/monitrc # 启动monit daemon时指定配置文件 -
monit reload # 当更新了配置文件需要重载 -
monit status # 查看所有服务状态 -
monit status nginx # 查看nginx服务状态 -
monit stop all # 停止所有服务 -
monit stop nginx # 停止nginx服务 -
monit start all # 启动所有服务 -
monit start nginx # 启动nginx服务 -
monit -V # 查看版本
配置文件vi /etc/monitrc
## Global section
set daemon 30
set logfile syslog
# 邮箱设置
set mailserver xxx@xxx
username "xxx" password "xxx"
# using ssl
set alert xxx@xxx
set alert xxx@xxx #可以设置多个
set mail-format {
from: xxx@xxx
subject: [$SERVICE] $EVENT
message:
[$SERVICE] $EVENT
Date: $DATE
Action: $ACTION
Host: $HOST
Description: $DESCRIPTION
Your faithful employee,
Monit }
# 设置web服务认证
set httpd port 2812 and
# ssl enable
# pemfile /etc/certs/monit.pem
# use address all # only accept connection from localhost
allow 127.0.0.1 # 允许localhost连接
allow admin:monit # web登录的用户名和密码
## Services
#或者:
#set httpd port 2812 and
# 只接受来自本地主机的连接
#(only accept connection from localhost)
#use address 10.10.10.141 # 允许本地主机连接到服务器和
#(allow localhost to connect to the server and) allow localhost # 和指定网段(192.168.0.0/16),
#或者所有ip都可以访问 allow 0.0.0.0/0.0.0.0 # 需要用户'admin',密码为'monit'
#(require user 'admin' with password 'monit') allow admin:monit # 启用SSL/TLS并设置服务器证书的路径
#(enable SSL/TLS and set path to server certificate) with ssl { pemfile: /etc/ssl/certs/monit.pem }
## Includes
include /etc/monit.d/*
配置文件关键字:
'if', 'and', 'with(in)', 'has', 'us(ing|e)', 'on(ly)', 'then', 'for', 'of'
四、服务监控
1.修改主配置文件
2.在/etc/monit.d/增加指定服务的配置文件,例如/etc/monit.d/nginx。配置变写完毕,使用下列,命令检测是否正确:
monit -t
3.启动monit:
monit
4.启动所有服务或者单个服务:
monit start all
5.若修改了配置文件,重载配置:
monit reload
6.使用下面命令查看监控状态:
monit status
控制台输出:
-
$ monit status -
The Monit daemon 5.17.1 uptime: 4d 15h 45m -
Process 'nginx' -
status Running -
monitoring status Monitored -
pid 20563 -
parent pid 1 -
uid 0 -
effective uid 0 -
gid 0 -
uptime 3d 22h 36m -
threads 1 -
children 2 -
memory 820 kB -
memory total 7.3 MB -
memory percent 0.0% -
memory percent total 0.2% -
cpu percent 0.0% -
cpu percent total 0.0% -
data collected Sat, 18 Feb 2017 10:09:56 -
System 'iZ28s4jxu17Z' -
status Running -
monitoring status Monitored -
load average [0.03] [0.06] [0.06] -
cpu 8.4%us 0.8%sy 0.2%wa -
memory usage 1.5 GB [41.2%] -
swap usage 0 B [0.0%] -
data collected Sat, 18 Feb 2017 10:09:56
或者浏览器输入http://localhost:2812登录网页版查看实时状态。
设置错误提醒
Monit默认情况下如果一个服务失败只发送一个通知:
alert foo@bar
如果您希望在服务保持处于失败状态时每十个周期通知一次,您可以使用:
alert foo@bar with reminder on 10 cycles
同样,如果您想在每个失败的周期获得通知,您可以使用:
alert foo@bar with reminder on 1 cycle
要禁止某些用户和服务的警报,可以在服务检查的局部配置里添加语句:
noalert mail-address
服务类型
首先需要理解在monit里什么是服务(service)。看监控语法:
check <类型> <服务名> [PATH <path>] [ADDRESS <host address>]
其中类型是monit支持的监控类型,一共有:system、file、process、fifo、filesystem、directory、host、network、program。
服务名必需是英文且唯一,不可以出现重复!
后面的带[]是根据类型需要添加的。
服务类型语法
每个服务条目由关键字组成check,后面是服务类型。每个条目需要唯一的描述性名称,可以自由选择。此名称由Monit用于在内部和与用户的所有交互中引用该服务。
目前,支持九种类型的检查语句:
进程
CHECK PROCESS <unique name> <PIDFILE <path> | MATCHING <regex>>
<path>是程序的pid文件的绝对路径。pid文件是一个包含进程唯一ID的文件。如果pid文件不存在或不包含正在运行的进程的PID编号,则Monit将调用该条目的start方法(如果已定义)。
<regex>是使用PID文件的替代方法,并使用进程名称模式匹配来查找要监视的进程。选择具有最长正常运行时间的最顶部匹配的父级,因此如果进程名称是唯一的,则此检查形式是最有用的。应该尽可能使用Pid文件,因为它定义了预期的PID。您可以测试一个进程是否匹配来自命令行使用的模式monit procmatch "regex-pattern"。这将列出匹配或不匹配的所有进程,regex模式。
文件
CHECK FILE <unique name> PATH <path>
<path>是文件的绝对路径。如果文件不存在,Monit将调用该条目的start方法(如果已定义),如果<path>不指向常规文件类型(例如目录),Monit将禁用此条目的监视。如果Monit在被动模式下运行或者没有定义start方法,Monit只会在错误时发送警报。
Fifo
CHECK FIFO <unique name> PATH <path>
<path>是fifo的绝对路径。如果fifo不存在,Monit将定义调用该条目的start方法,如果<path>没有指向fifo类型(例如目录),Monit将禁用对该条目的监视。如果Monit在被动模式下运行或者没有定义start方法,Monit只会在错误时发送警报。
文件系统
CHECK FILESYSTEM <unique name> PATH <path>
<path>是设备/磁盘,安装点,文件或作为文件系统一部分的目录的路径。建议直接使用块特殊文件(例如Linux上的/dev/hda1或Solaris上的/dev/dsk/c0t0d0s1等)如果使用挂载点(例如/data),请注意文件系统是卸载的测试仍然是真的,因为挂载点存在。
如果文件系统不可用,Monit将调用该条目的start方法(如果已定义)。如果不指向文件系统,Monit将禁用对此条目的监视。如果Monit在被动模式下运行或者没有定义start方法,Monit只会在错误时发送警报。
目录
CHECK DIRECTORY <unique name> PATH <path>
<path>是目录的绝对路径。如果目录不存在,Monit将调用该条目的start方法(如果已定义)。如果<path>不指向目录,monit将禁用对此条目的监视。如果Monit在被动模式下运行或者没有定义启动方法,Monit只会在错误时发送警报。
远程主机
CHECK HOST <unique name> ADDRESS <host address>
主机地址可以指定为主机名字符串或点分十进制格式的IP地址字符串。例如,tildeslash.com或“64.87.72.95”。
系统
CHECK SYSTEM <unique name>
的唯一的名称通常是本地主机名,而是可以使用任何描述性名称。如果使用变量$ HOST作为名称,它将扩展为主机名。此检查允许监控一般系统资源,如CPU使用率,总内存使用或负载平均。该唯一名称在邮件警报中用作系统主机名,在M/Monit中用作主机条目的初始名称。
自定义
CHECK PROGRAM <unique name> PATH <executable file> [TIMEOUT <number> SECONDS]
<path>是可执行程序或脚本的绝对路径。该状态测试允许一个检查程序的退出状态。如果程序没有在<number>秒内完成执行,Monit将终止它。默认程序超时为300秒(5分钟)。程序的输出被记录并在用户界面和警报中可用,默认情况下最大为512B。您可以使用set limits语句自定义限制。
网络
CHECK NETWORK <unique name> <ADDRESS <ipaddress> | INTERFACE <name>>
<ipaddress>是受监视网络接口的IPv4或IPv6地址。也可以在Linux上使用接口名称,例如“eth0”。
服务检测时间
可以使用every语句修改服务检查计划。
有三种变体:
1.轮询周期倍数
EVERY [number] CYCLES
2.Cron-style
-
EVERY [cron] -
# [cron] -
# * * * * * -
# 分 时 日 月 周
3.与Cron-style相反(do-not-check)
NOT EVERY [cron]
示例:
示例1:每两个周期检查一次
-
check process nginx with pidfile /var/run/nginx.pid -
every 2 cycles
示例2:在上午8点到下午7点之间检查每个工作日
-
check program checkOracleDatabase -
with path /var/monit/programs/checkoracle.pl -
every "* 8-19 * * 1-5"
示例3:在星期日0AM到3AM之间不要在备份窗口中运行检查,否则运行具有常规轮询周期频率的检查。
-
check process mysqld with pidfile /var/run/mysqld.pid -
not every "* 0-3 * * 0"
注意不要使用特定的分钟,因为Monit可能不会在那分钟运行。
服务重启限制
Monit提供了一种重启限制机制,用于服务在较长时间内拒绝启动或响应的情况。
超时语句的语法如下(关键字在大写):
IF <number> RESTART <number> CYCLE(S) THEN <action>
该行动值是常见的任何一个动作或超时(为向后兼容,等于取消监视行动)。
下面是一个示例,如果Monit将在3个周期内重新启动服务2次,将取消监视服务:
if 2 restarts within 3 cycles then unmonitor
要在禁用监视后使Monit再次检查服务,请从命令行运行monit monitor servicename。
超时设置自定义exec的示例:
if 5 restarts within 5 cycles then exec "/foo/bar"
停止服务的示例:
if 7 restarts within 10 cycles then stop
服务示例
一个完整的HOST监控服务语法:
-
check host <service> address <address or ip> -
if failed -
xxx -
then alert -
alert xx@xxx
解释:
第一行是检查类型为host的服务,需要设定服务名及服务器地址;
第二行至第四行的意思是中间的预期代码xxx如果失败,则执行then alert;
最后一行alert xx@xxx配置局部推送的邮箱,可选。可以多行,表示配置多个。
第二行至第四行也可以写成一行:
if failed xxx then alert
下面是示例:
/etc/monit.d/test
-
## system -
check system $HOST -
if loadavg (1min) > 4 then alert -
if loadavg (5min) > 2 then alert -
if cpu usage > 95% for 10 cycles then alert -
if memory usage > 75% then alert -
if swap usage > 25% then alert -
## file -
check file apache_bin with path /usr/local/apache/bin/httpd -
if failed checksum and -
expect the sum 8f7f419955cefa0b33a2ba316cba3659 then unmonitor -
if failed permission 755 then unmonitor -
if failed uid root then unmonitor -
if failed gid root then unmonitor -
alert security@foo.bar on { -
checksum, permission, uid, gid, unmonitor -
} with the mail-format { subject: Alarm! } -
group server -
## process -
check process apache with pidfile /usr/local/apache/logs/httpd.pid -
start program = "/etc/init.d/httpd start" with timeout 60 seconds -
stop program = "/etc/init.d/httpd stop" -
if cpu > 60% for 2 cycles then alert -
if cpu > 80% for 5 cycles then restart -
if totalmem > 200.0 MB for 5 cycles then restart -
if children > 250 then restart -
if loadavg(5min) greater than 10 for 8 cycles then stop -
if failed host www.tildeslash.com port 80 protocol http -
and request "/somefile.html" -
then restart -
if failed port 443 protocol https with timeout 15 seconds then restart -
if 3 restarts within 5 cycles then unmonitor -
depends on apache_bin -
group server -
## filesystem -
check filesystem datafs with path /dev/sdb1 -
start program = "/bin/mount /data" -
stop program = "/bin/umount /data" -
if failed permission 660 then unmonitor -
if failed uid root then unmonitor -
if failed gid disk then unmonitor -
if space usage > 80% for 5 times within 15 cycles then alert -
if space usage > 99% then stop -
if inode usage > 30000 then alert -
if inode usage > 99% then stop -
group server -
## file's timestamp -
check file database with path /data/mydatabase.db -
if failed permission 700 then alert -
if failed uid data then alert -
if failed gid data then alert -
if timestamp > 15 minutes then alert -
if size > 100 MB then exec "/my/cleanup/script" as uid dba and gid dba -
## directory permission -
check directory bin with path /bin -
if failed permission 755 then unmonitor -
if failed uid 0 then unmonitor -
if failed gid 0 then unmonitor -
## remote host -
check host myserver with address 192.168.1.1 -
if failed ping then alert -
if failed port 3306 protocol mysql with timeout 15 seconds then alert -
if failed port 80 protocol http -
and request /some/path with content = "a string" -
then alert -
## network link status -
check network public with interface eth0 -
if failed link then alert -
if changed link then alert -
if saturation > 90% then alert -
if download > 10 MB/s then alert -
if total upload > 1 GB in last hour then alert -
## custom program status output -
check program myscript with path /usr/local/bin/myscript.sh -
if status != 0 then alert
控制台访问验证
访问Monit Web界面主要通过ALLOW选项进行控制,ALLOW选项用于指定身份验证并仅授权特定客户端进行连接。
如果正在使用Monit命令行界面,至少需要一个明文密码(见下文),否则Monit命令行界面将无法连接到Monit Web界面。
尝试连接到Monit,但提交错误的用户名和/或密码的客户端将使用其IP地址记录。
主机和网络允许列表
Monit维护允许连接的主机和网络的访问控制列表。您可以添加任意数量的主机,但只允许具有有效域名或其IP地址的主机。
Monit将查询名称服务器以检查任何尝试连接的主机。如果主机(客户端)正在尝试连接,但无法在访问列表中找到或无法解决,Monit将立即关闭与客户端的连接。
配置文件示例:
-
set httpd port 2812 -
allow localhost -
allow my.other.work.machine.com -
allow 10.1.1.1 -
allow 192.168.1.0/255.255.255.0 -
allow 10.0.0.0/8
在允许列表中未提及的客户端,尝试连接到Monit将被拒绝访问,并使用其IP地址记录。
明文用户和密码
如果allow语句包含用单独的“:”字符分隔的用户名和密码,Monit将使用基本认证。
注意:可以使用特殊字符,但对于非字母数字,必须引用密码。
句法:
ALLOW <username>:<password>
PAM
在提供PAM的平台(如Linux,Mac OS X,FreeBSD,NetBSD)上支持PAM。
句法:
ALLOW @<group>
其中group是允许访问Monit的Web界面的组名称
只读用户
最后,可以将一些用户定义为只读。只读用户可以读取Monit网页,但无法访问按钮,并且无法从Web界面更改服务。
-
set httpd port 2812 -
allow admin:password -
allow hauk:password read-only -
allow @admins -
allow @users read-only
通过在 username:password 后使用只读关键字将用户设置为只读。在上述示例中,用户hauk被定义为只读用户,而admin用户具有所有访问权限。
实践
监听Nginx、php-fpm及API接口
/etc/monit.d/http
-
# check nginx process -
check process nginx with pidfile /run/nginx.pid -
start program = "/usr/local/nginx/sbin/nginx " with timeout 10 seconds -
stop program = "/usr/local/nginx/sbin/nginx -s stop" -
if changed pid then restart -
# check php-fpm process -
check process php-fpm with MATCHING php-fpm -
start program = "/usr/local/php/sbin/php-fpm" with timeout 10 seconds -
stop program = "/usr/bin/killall php-fpm" with timeout 10 seconds -
if failed port 9000 for 3 cycles then restart -
# check http status -
check host dev_xxx_http address xxx -
start program = "/usr/local/php/sbin/php-fpm ; /usr/local/nginx/sbin/nginx -s reload" with timeout 10 seconds -
stop program = "/usr/bin/killall php-fpm ; /usr/local/nginx/sbin/nginx -s stop" with timeout 10 seconds -
if failed -
port 80 -
protocol http -
and status = 200 -
for 3 cycles -
then restart -
#alert xxx@xxx #可以单独设置新的通知者 -
#alert xxx@xxx -
if failed -
port 80 -
protocol http -
request "/Api/Login/Get_Userinfo/" -
and status = 200 -
for 3 cycles -
then restart
监听TCP
/etc/monit.d/tcp
-
check host dev_xxx_swoole_xxx address xxx -
start program = "/usr/local/php/bin/php Server.php" with timeout 10 seconds -
stop program = "/usr/bin/kill -9 $(ps -aux|grep -E 'Server|swoole_server'|grep -v grep|awk '{print $2}')" with timeout 10 seconds -
if failed port xxx type tcp for 3 cycles then restart
浙公网安备 33010602011771号