随笔分类 -  监控系统基础及实践

zabbix,open-falcon,普罗米修斯,nagios
摘要:需求1:多个Prometheus数据集群指标相互割裂,无法聚合在一个看板使用。 需求2: 多个Prometheus告警规则分散,需要集中管理。 部署kube-prometheus-stack nameOverride: "" namespaceOverride: "" kubeTargetVersi 阅读全文
posted @ 2025-11-10 11:36 meijinmeng 阅读(31) 评论(0) 推荐(0)
摘要:1.需求:需要监控elasticsearch集群的需求,以便告警使用。 2.说明:zabbix 采用shell脚本监控相关指标,Grafana使用模板监控集群状态看板。 3.zabbix监控指标及脚本 cluster_name status timed_out number_nodes data_n 阅读全文
posted @ 2021-01-20 18:25 meijinmeng 阅读(0) 评论(0) 推荐(0)
摘要:一.需求分析 1.监控需求:将云厂商的RDS数据库监控指标集成到自己公司的监控系统中 2.集成方法:调用厂商提供的API接口 3.华为云/阿里云RDS的监控指标异同 ##注意: 调用接口有如下两种认证方式,您可以选择其中一种进行认证鉴权。 Token认证:通过Token认证通用请求。 AK/SK认证 阅读全文
posted @ 2021-01-04 15:07 meijinmeng 阅读(0) 评论(0) 推荐(0)
摘要:需求:可视化更好点的Mysql监控 1.下载 mysql exporter 和mysql展示模版 // 下载地址:https://github.com/prometheus/mysqld_exporter/releases# ls mysqld_exporter-0.11.0.linux-amd64 阅读全文
posted @ 2020-08-14 15:40 meijinmeng 阅读(0) 评论(0) 推荐(0)
摘要:一.监控思路与方法 1.使用Rabbitmq管理和监控 2.使用Rabbitmq Management插件来监控和管理 3.自己动手编写shell脚本来监控需要的Rabbitmq 的指标 4.使用Rabbitmq 监控模版,找到自己需要的监控指标即可 二.重要指标确认 Queued messages 阅读全文
posted @ 2020-08-08 19:00 meijinmeng 阅读(0) 评论(0) 推荐(0)
摘要:1.组件介绍 因为Jaeger 目前使用大公司较少,文档也比较少所以整理出来以供大家参考,如有更好的方式欢迎交流,这里主要以追踪Java的链路为介绍对象。 CAT 由大众点评开发的,基于 Java 的实时应用监控平台,包括实时应用监控,业务监控。 Jaeger是Uber推出的一款调用链追踪系统,类似 阅读全文
posted @ 2020-07-24 17:30 meijinmeng 阅读(0) 评论(0) 推荐(0)
摘要:一.需求与分析 1.需要每周分析下系统告警汇总信息,加图表展示。 2.思路:调用zabbix api 获取,查询zabbix数据库的alters表来获取。 二.实现方法 1.核心部分是查询数据库提取告警次数,告警级别 坑就是很多网上发的sql是无法准确或者无法提取告警级别,告警次数的。 Trigge 阅读全文
posted @ 2020-07-22 17:18 meijinmeng 阅读(0) 评论(0) 推荐(0)
摘要:1.需求:监控一些比较重要的接口,如果状态异常或者响应时间过长,告警发邮件或者钉钉。 2.使用模块 python3 requets 3.代码分享 import requests import json from email.mime.text import MIMEText from email.m 阅读全文
posted @ 2020-05-14 22:47 meijinmeng 阅读(0) 评论(0) 推荐(0)
摘要:一.基础环境 1):准备系统:Centos7.x Ansible 2):准备主机: 192.168.1.115 redis01 192.168.1.192 redis02 192.168.1.23 redis03 192.168.1.47 redis04 192.168.1.65 redis05 1 阅读全文
posted @ 2020-01-08 16:04 meijinmeng 阅读(0) 评论(0) 推荐(0)
摘要:1.准备 1):讯飞开发者账号。 2):讯飞语音合成Linux sdk,会一点C语言或者找会C的开发,目前不能超过2048超过需要增加逻辑并做容错机制。 3):Zabbix 整理告警等级,并定时将Disaster级别的告警信息输出到指定文件。 采集zabbix Disaster级别告警信息 :htt 阅读全文
posted @ 2020-01-08 15:14 meijinmeng 阅读(5) 评论(0) 推荐(0)
摘要:1.系统部署 **1):部署过程略...** #readme ```bash 1.问题:ERROR: bootstrap checks failed max file descriptors [4096] for elasticsearch process likely too low, incre 阅读全文
posted @ 2020-01-07 17:01 meijinmeng 阅读(0) 评论(0) 推荐(0)
摘要:1.需求:有一个语音合成播报项目,要实时获取zabbix的ERROR级别以上告警信息,将该信息合成语音播报出去。(合成语音及播报已经完成) 2.现实:整理zabbix告警级别,将不太重要的告警放到ERROR级别以下,将重点信息设置为ERROR级别,然后通过zabbbix api获取。 3.简单实现: 阅读全文
posted @ 2019-11-27 15:36 meijinmeng 阅读(1629) 评论(0) 推荐(0)
摘要:1 #!/usr/local/python/shims/python 2 from rediscluster import StrictRedisCluster 3 ''' 4 需要在宿主机python中安装rediscluster 5 pip install rediscluster 6 ''' 阅读全文
posted @ 2019-11-26 18:06 meijinmeng 阅读(695) 评论(0) 推荐(0)