多维监控体系

监控概述

监控对象:
1)监控对象的理解:
比如:CPU 是怎么工作的??原理
2)监控对象的指标:CPU使用率 CPU负载 CPU个数 上下文切换
3)确定性能基准线:怎么样才算故障??CPU负载多少才算高。

监控范围:
1)硬件监控 服务器的硬件故障
2)操作系统监控 CPU 内存 IO 进程
3)应用服务监控
4)业务监控
==============================================================
1、硬件监控:
远程控制卡
Dell服务器:iDRAC
HP服务器:  ILO
IBM服务器: IMM
Linux就可以使用IPMI BMC控制器

ipmitool:监控硬件
1)硬件要支持,要有BMC控制器。
2)操作系统 Linux IPMI
3)管理工具 ipmitool

安装IPMI:   yum -y install OpenIPMI ipmitool

启动服务:systemctl start ipmi

使用IPMI有两种方式:
1)本地调用
2)远程调用 ip地址 用户名和密码

查看帮助: ipmitool help

ipmi配置网络,有两种方式:
a. ipmi over lan :服务器流量通过网卡走
b. 独立的方式 :可以给服务器单独插根网线来做ipmi的管控。

硬件监控: 1.使用IPMI 2.机房巡检

路由器和交换机监控:使用SNMP监控
yum -y install net-snmp net-snmp-utils

2、系统监控
CPU、内存、 IO(网络io和磁盘io)、
http://kb.cnblogs.com/page/542462/ 我是一个线程
http://mt.sohu.com/20160424/n445907874.shtml

--------------------------------------CPU监控-------------------------------------------------
CPU三个重要的概念:  
上下文切换:CPU调度器实施的进程的切换过程,上下文切换。
运行队列(负载):
使用率:

单位: 时间片

确定服务类型:
1)IO密集型 (数据库)
2)CPU密集型 (web服务、mail)

确定性能基准线:怎么样才算故障??CPU负载多少才算高。
运行队列:1-3个线程 1CPU 4核 负载不超过3*4<=12。
CPU使用率: 65%--70% 用户态利用率
                      30%--35% 内核态使用率
                      0%--5% 空闲
上下文切换:

cpu监控工具:yum -y install sysstat
1)top: 按P CPU使用率排序;按M 内存使用率排序
2)vmstat
3)mpstat

--------------------------------------内存监控-------------------------------------------------
内存单位:页,默认1页是4KB。
1)寻址
2)空间

内存监控命令:free vmstat iotop

参考书:
TCP/IP卷一、操作系统原理

硬盘:
IOPS:IO's Per Second
1)顺序IO
2)随机IO
iotop: 查看磁盘IO
iostat:

网络监控:iftop
阿里测:    www.alibench.com
360奇云测:http://ce.cloud.360.cn/
站长工具:tool.chinaz.com , ping.chinaz.com

整体监控:IBM的nmon (二进制),测试用的多
文章参考:
https://www.ibm.com/developerworks/cn/aix/library/analyze_aix/index.html
http://www.ibm.com/developerworks/cn/aix/library/nmon_analyser/

分析工具:通过nmon_analyse生成分析报表
参考文章:http://phpseyo.iteye.com/blog/1958502

例如:./nmon16e_x86_rhel72 -c 10 -s 10 -f -m /tmp/

应用服务监控
举例:nginx
安装依赖: yum -y install gcc glibc gcc-c++ pcre-devel openssl-devel
创建用户:useradd -s /sbin/nologin -M www

编译:./configure --prefix=/usr/local/nginx-1.10.1 --user=www --group=www \
--with-http_ssl_module --with-http_stub_status_module

make && make install

注意:configure shell脚本,执行它的作用:生成Makefile文件。

Nginx状态监控:
server段加入如下内容
location /nginx-status {
stub_status on;
access_log off;
allow 192.168.1.0/24;
deny all;
}

采集---》存储---》展示---》告警

Zabbix 能监控IPMI SNMP JVM

自定义监控项:
1)添加用户自定义参数
2)重启zabbix-agent
3)在server端使用zabbix_get测试获取
4)在web界面创建item

5)自定义图形:
6)自定义screen;
7)自定义maps;(多台机器直接连线可以显示流量)
选择两台机器,在Links标签的地方点击Edit,Label框里
填入:{linux-node1.example.com:net.if.out[eth0].last(0)},
就可以显示两台机器之间的流量了。

分享:Piwik流量分析系统

告警添加流程:
ACTION 1)通知什么 2)什么情况下通知 3)怎么通知 4)通过什么途径发送  5)发送给谁 6)通知升级 7)发送目标

完整的告警流程:
1)创建用户组,添加权限,权限只能按用户组分配
2)创建用户,选择用户角色
3)设置好报警媒介
4)配置好Action
添加新主机后,要确认权限分配。

posted @ 2018-04-29 22:57  求其在我  阅读(102)  评论(0)    收藏  举报