多维监控体系
监控概述
监控对象:
  1)监控对象的理解: 
       比如:CPU 是怎么工作的??原理
  2)监控对象的指标:CPU使用率 CPU负载 CPU个数  上下文切换
  3)确定性能基准线:怎么样才算故障??CPU负载多少才算高。
监控范围:
  1)硬件监控        服务器的硬件故障
  2)操作系统监控    CPU 内存 IO 进程
  3)应用服务监控
  4)业务监控    
==============================================================
1、硬件监控:
   远程控制卡
         Dell服务器:iDRAC
         HP服务器:  ILO
         IBM服务器: IMM
   Linux就可以使用IPMI BMC控制器
   
   ipmitool:监控硬件
   1)硬件要支持,要有BMC控制器。
   2)操作系统 Linux IPMI
   3)管理工具 ipmitool
安装IPMI: yum -y install OpenIPMI ipmitool
启动服务:systemctl start ipmi
   
使用IPMI有两种方式:
   1)本地调用
   2)远程调用 ip地址  用户名和密码
查看帮助: ipmitool help
ipmi配置网络,有两种方式:
a. ipmi over lan :服务器流量通过网卡走
b. 独立的方式 :可以给服务器单独插根网线来做ipmi的管控。
硬件监控: 1.使用IPMI 2.机房巡检
路由器和交换机监控:使用SNMP监控
yum -y install net-snmp net-snmp-utils
2、系统监控
    CPU、内存、 IO(网络io和磁盘io)、
http://kb.cnblogs.com/page/542462/           我是一个线程	
http://mt.sohu.com/20160424/n445907874.shtml 
--------------------------------------CPU监控-------------------------------------------------
CPU三个重要的概念:  
  上下文切换:CPU调度器实施的进程的切换过程,上下文切换。
  运行队列(负载):
  使用率:
单位: 时间片
确定服务类型:
  1)IO密集型   (数据库)
  2)CPU密集型  (web服务、mail)
确定性能基准线:怎么样才算故障??CPU负载多少才算高。
     运行队列:1-3个线程 1CPU 4核  负载不超过3*4<=12。
	 CPU使用率: 65%--70% 用户态利用率
                      30%--35%  内核态使用率
                      0%--5%    空闲
     上下文切换:
cpu监控工具:yum -y install sysstat
    1)top: 按P CPU使用率排序;按M 内存使用率排序
	2)vmstat 
	3)mpstat
--------------------------------------内存监控-------------------------------------------------
内存单位:页,默认1页是4KB。
1)寻址
2)空间
内存监控命令:free vmstat iotop
参考书:
TCP/IP卷一、操作系统原理
硬盘:
IOPS:IO's Per Second
1)顺序IO
2)随机IO
iotop: 查看磁盘IO
iostat:
网络监控:iftop
阿里测:    www.alibench.com
360奇云测:http://ce.cloud.360.cn/
站长工具:tool.chinaz.com , ping.chinaz.com
整体监控:IBM的nmon (二进制),测试用的多
文章参考:
https://www.ibm.com/developerworks/cn/aix/library/analyze_aix/index.html
http://www.ibm.com/developerworks/cn/aix/library/nmon_analyser/
分析工具:通过nmon_analyse生成分析报表
参考文章:http://phpseyo.iteye.com/blog/1958502
例如:./nmon16e_x86_rhel72 -c 10 -s 10 -f -m /tmp/
应用服务监控
    举例:nginx 
安装依赖:	yum -y install gcc glibc gcc-c++ pcre-devel openssl-devel 
创建用户:useradd -s /sbin/nologin -M www
编译:./configure --prefix=/usr/local/nginx-1.10.1 --user=www --group=www \
--with-http_ssl_module --with-http_stub_status_module 
make && make install
注意:configure shell脚本,执行它的作用:生成Makefile文件。
Nginx状态监控:
server段加入如下内容
location /nginx-status {
     stub_status on;
	 access_log off;
	 allow 192.168.1.0/24;
	 deny all;
	}
采集---》存储---》展示---》告警
Zabbix 能监控IPMI SNMP JVM
自定义监控项:
1)添加用户自定义参数
2)重启zabbix-agent
3)在server端使用zabbix_get测试获取
4)在web界面创建item
5)自定义图形:
6)自定义screen;
7)自定义maps;(多台机器直接连线可以显示流量)
选择两台机器,在Links标签的地方点击Edit,Label框里
填入:{linux-node1.example.com:net.if.out[eth0].last(0)},
就可以显示两台机器之间的流量了。
分享:Piwik流量分析系统
告警添加流程:
   ACTION 1)通知什么  2)什么情况下通知 3)怎么通知 4)通过什么途径发送  5)发送给谁 6)通知升级 7)发送目标
 
完整的告警流程:
1)创建用户组,添加权限,权限只能按用户组分配
2)创建用户,选择用户角色
3)设置好报警媒介
4)配置好Action
     添加新主机后,要确认权限分配。
 
                    
                     
                    
                 
                    
                
 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号