监控导致负载异常升高的一个脚本

最近几天几台memcached服务器,这几台机器不只是缓存服务器,也是hadoop的,一到凌晨四点左右就监控到负载异常升高,我可不想四点左右爬起来看哪个进程导致的,写了一个简单脚本记录top输出值到一个文件中,第二天再查看。

脚本

#!/bin/bash
# hexm@2017-01-10
#

while true;
  do
    TIME=`date +%F-%H:%M:%S`
    echo $TIME >> /tmp/get_top.log
    top -n 1 -c -b | head -30 >> /tmp/get_top.log
    sleep 60
  done

执行

nohup bash get_top.sh &

 第二天接到的短信报警,04:54的报警

可以看到一台机器04:54负载偏高,打开记录的日志,看到是hadoop导致的。

 

posted @ 2017-01-10 19:53  hexm  阅读(208)  评论(0编辑  收藏  举报
联系我:xiaoming.unix@gmail.com