zabbix

1、zabbix监控

误告警

时间不同步，数据库压力过大（IO）、内存、CPU、网络导致队列过长无法及时更新数据。

每秒插入值

监控项过多，监控时间间隔太小，监控数据数据类型（数字、字符、文本），关闭不需要的监控项，历史数据和趋势数据过多导致查库时间长，数据库分区存储。

poller过大

对方网络不通无法取数，调整监控服务配置文件，解决队列中取不到数据的监控项。

监控队列过高

监控项时间间隔，不需要的监控主机，监控项，告警项

2、zabbix消息队列延迟过高：查找延迟过高监控项及主机

监控代理待机，服务停止

停止非必须的监控项

增加监控项时间间隔周期

增大CacheSize(监控项配置缓存)、HistoryCacheSize(批量提交DB缓存)、ValueSize(查询历史数据缓存)。

将改监控由被动式项为主动式，增加StartTrappers参数。

减少用户显示的每页行数

保证server、proxy、agent机器时钟一致

查看排队时间过长(1小时以上)的监控项是否通信正常(包括agent未启动的情况)

【处理过程】

1）、查看proxy的日志情况，无任何异常信息反馈

2）、查看代理对应的mysql，无异常等待时间

3）、查看代理和数据库所在的主机性能，CPU、内存、网络、IO指标都正常

4）、尝试重启数据库和代理进程，问题未解决

5）、通过队列的“细节”选项，查看堵塞的监控项情况，发现有大量的容器主机节点的监控信息

6）、查看对应主机的监控信息，发现通过自动发现模版，扫描出10多万个监控项

3、zabbix性能优化

1）、减小监控项和自动发现时间间隔，关闭不需要的监控（不常用的监控项，自动发现出来容器网卡或分区）。

2）、减小历史和趋势数据保留时间。

3）、关注并解决队列中长时间收不到数据的监控项和主机。

4）、数据库分区，编写存储过程。

5）、新增代理监控。

6）、优化监控配置（zabbix_server，zabbix_proxy，数据库）。

7）、升级监控。升级硬件配置。

4、zabbix数据采集过程

1）、agent (监控项/监控项主动) — zabbix-server（poller/trapper - 预处理 - history syncer） — 数据库

2）、proxy (监控项/监控项主动) — zabbix-server（history syncer） — 数据库

5、影响nvps每秒插入值：Numerical Values Per Second 每秒处理的数

监控项类型（主被动，SNMP v2），信息类型（整数浮点文本），监控项数量，监控项时间间隔

WEB用户在线数量

history数据保留时间（保留过多，每次查询删除耗费较长时间）

监控指标处理速度参考：

每个主机60个监控项，更新频率一分钟一次，100个主机产生的NVPS大致为100

每个主机60个监控项，更新频率一分钟一次，1000个主机产生的NVPS大致为1000

每个主机60个监控项，更新频率一分钟一次，10000个主机产生的NVPS大致为10000

每个主机300个监控项，更新频率一分钟一次，100个主机产生的NVPS大致为500

每个主机300个监控项，更新频率一分钟一次，1000个主机产生的NVPS大致为5000

每个主机300个监控项，更新频率一分钟一次，10000个主机产生的NVPS大致为50000

innotop命令用于查看数据库性能

6、监控和易视界项目进度慢时间长

客户沟通、同事沟通

7、问题总结

记录问题，评估影响，初步分析，问题反馈上报，解决方案

不能急不能慌，先反馈问题，评估影响范围，是否启用应急方案

接下来记录当前问题状态，然后通过监控和分析工具定位问题

然后给出解决方案，

排查，上报，分析，处理，记录。

posted @ 2025-07-24 12:27 榆812 阅读(44) 评论(0) 收藏举报

刷新页面返回顶部

榆812

zabbix

公告