zabbix
1、zabbix监控
误告警
时间不同步,数据库压力过大(IO)、内存、CPU、网络导致队列过长无法及时更新数据。
每秒插入值
监控项过多,监控时间间隔太小,监控数据数据类型(数字、字符、文本),关闭不需要的监控项,历史数据和趋势数据过多导致查库时间长,数据库分区存储。
poller过大
对方网络不通无法取数,调整监控服务配置文件,解决队列中取不到数据的监控项。
监控队列过高
监控项时间间隔,不需要的监控主机,监控项,告警项
2、zabbix消息队列延迟过高:查找延迟过高监控项及主机
监控代理待机,服务停止
停止非必须的监控项
增加监控项时间间隔周期
增大CacheSize(监控项配置缓存)、HistoryCacheSize(批量提交DB缓存)、ValueSize(查询历史数据缓存)。
将改监控由被动式项为主动式,增加StartTrappers参数。
减少用户显示的每页行数
保证server、proxy、agent机器时钟一致
查看排队时间过长(1小时以上)的监控项是否通信正常(包括agent未启动的情况)
【处理过程】
1)、查看proxy的日志情况,无任何异常信息反馈
2)、查看代理对应的mysql,无异常等待时间
3)、查看代理和数据库所在的主机性能,CPU、内存、网络、IO指标都正常
4)、尝试重启数据库和代理进程,问题未解决
5)、通过队列的“细节”选项,查看堵塞的监控项情况,发现有大量的容器主机节点的监控信息
6)、查看对应主机的监控信息,发现通过自动发现模版,扫描出10多万个监控项
3、zabbix性能优化
1)、减小监控项和自动发现时间间隔,关闭不需要的监控(不常用的监控项,自动发现出来容器网卡或分区)。
2)、减小历史和趋势数据保留时间。
3)、关注并解决队列中长时间收不到数据的监控项和主机。
4)、数据库分区,编写存储过程。
5)、新增代理监控。
6)、优化监控配置(zabbix_server,zabbix_proxy,数据库)。
7)、升级监控。升级硬件配置。
4、zabbix数据采集过程
1)、agent (监控项/监控项主动) — zabbix-server(poller/trapper - 预处理 - history syncer) — 数据库
2)、proxy (监控项/监控项主动) — zabbix-server(history syncer) — 数据库
5、影响nvps每秒插入值:Numerical Values Per Second 每秒处理的数
监控项类型(主被动,SNMP v2),信息类型(整数浮点文本),监控项数量,监控项时间间隔
WEB用户在线数量
history数据保留时间(保留过多,每次查询删除耗费较长时间)
监控指标处理速度参考:
每个主机60个监控项,更新频率一分钟一次,100个主机产生的NVPS大致为100
每个主机60个监控项,更新频率一分钟一次,1000个主机产生的NVPS大致为1000
每个主机60个监控项,更新频率一分钟一次,10000个主机产生的NVPS大致为10000
每个主机300个监控项,更新频率一分钟一次,100个主机产生的NVPS大致为500
每个主机300个监控项,更新频率一分钟一次,1000个主机产生的NVPS大致为5000
每个主机300个监控项,更新频率一分钟一次,10000个主机产生的NVPS大致为50000
innotop命令用于查看数据库性能
6、监控和易视界项目进度慢时间长
客户沟通、同事沟通
7、问题总结
记录问题,评估影响,初步分析,问题反馈上报,解决方案
不能急不能慌,先反馈问题,评估影响范围,是否启用应急方案
接下来记录当前问题状态,然后通过监控和分析工具定位问题
然后给出解决方案,
排查,上报,分析,处理,记录。

浙公网安备 33010602011771号