合集-夜莺监控

摘要:夜莺( Nightingale )安装方式,不同的场景使用不用的安装方式 阅读全文
posted @ 2023-05-18 11:45 IT运维监控 阅读(1373) 评论(0) 推荐(0)
摘要:夜莺开源项目在2023.7月底发布了V6版本,这个版本开始,项目目标不止于做一款开源监控系统,而是要做一款开源可观测性平台,不过路漫漫其修远兮,初期只是把日志数据源引入并完成了基本的可视化,后续会着力打通指标和日志的数据串联以及数据特征提取。欢迎小伙伴一起参与共建。 阅读全文
posted @ 2023-08-07 19:24 IT运维监控 阅读(524) 评论(0) 推荐(0)
摘要:痛点 市面上常见的采集器,比如 telegraf、grafana-agent、datadog-agent 等,通常内置了多种采集插件,比如可以采集操作系统的常规指标,也可以采集 mysql、redis、mongodb、kafka、elasticsearch、jmx 等指标,但是具体要采集什么数据,通 阅读全文
posted @ 2023-08-26 09:47 IT运维监控 阅读(641) 评论(0) 推荐(0)
摘要:大家好,夜莺项目发布 v6.1.0 版本,这是一个中版本迭代,不止是 bugfix 了,而是引入了既有功能的增强。具体增强了什么功能,下面一一介绍。 阅读全文
posted @ 2023-08-28 14:18 IT运维监控 阅读(192) 评论(0) 推荐(0)
摘要:大家好,夜莺项目发布 v6.4.0 版本,新增全局宏变量功能,本文为大家简要介绍一下相关更新内容。 全局宏变量功能 像 SMTP 的配置中密码类型的信息,之前都是以明文的方式在页面展示,夜莺支持全局宏变量之后,可以在变量管理配置一个 smtp_password 的密码类型的变量,在 SMTP 配置页 阅读全文
posted @ 2023-11-30 12:12 IT运维监控 阅读(153) 评论(0) 推荐(0)
摘要:网络设备采集简介 网络设备的问题通常会产生较大范围的影响,因此采集监控网络设备是一项常见的任务。不同公司在实施网络设备采集时可能采用不同的方案,主要有三类: SNMP(Simple Network Management Protocol):SNMP是一种常用的网络管理协议,可以用于获取网络设备的状态 阅读全文
posted @ 2023-12-04 19:10 IT运维监控 阅读(470) 评论(0) 推荐(0)
摘要:编者荐语:真正搞监控的人肯定知道 SNMP 水有多深,有时我甚至腹黑猜测,这些厂商是故意的吧,,,指标不标准,格式各异,只能靠一款灵活的采集器了,本文是夜莺社区用户写的文章,转给大家参考。 author:网络小斐 关于夜莺SNMP插件 前文说明了利用夜莺开源版如何监控H3C交换机的,算是抛砖引玉;秉 阅读全文
posted @ 2023-12-19 10:52 IT运维监控 阅读(758) 评论(0) 推荐(1)
摘要:大家好,夜莺项目发布 v6.5.0 版本,启用新 logo,菜单支持换肤,支持了暗黑版本的菜单,下一步会支持全站暗黑主题,敬请期待,下面是新 logo。 暗黑菜单 页面右上角点击用户名,在下拉框里会有主题设置,可以选择暗黑主题菜单,效果如下: 监控大盘详情页面右上角也多了一个主题设置,可以选择 da 阅读全文
posted @ 2023-12-20 14:20 IT运维监控 阅读(239) 评论(0) 推荐(0)
摘要:author:longzhuquan 背景 随着公司XC改造步伐的前进,越来越多的业务选择 TiDB,由于各个业务之间需要物理隔离,避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana,但对于运维来说几十套集群的监控、告警、巡检均需消 阅读全文
posted @ 2024-01-11 10:36 IT运维监控 阅读(158) 评论(0) 推荐(0)
摘要:author:longzhuquan 背景 随着公司XC改造步伐的前进,越来越多的业务选择 TiDB,由于各个业务之间需要物理隔离,避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana,但对于运维来说几十套集群的监控、告警、巡检均需消 阅读全文
posted @ 2024-01-12 10:29 IT运维监控 阅读(145) 评论(0) 推荐(0)
摘要:熟悉夜莺的小伙伴都知道夜莺分为开源版、专业版、企业版,三个版本良性发展。近期夜莺团队发布了 v6.7 版本,把机器Metadata管理功能推送到了开源版,下面是该功能的简单介绍。 如上图,机器列表页面的机器标识部分,加了超链接支持点击,点击之后会弹出一个侧拉板,展示机器的 metadata 信息,如 阅读全文
posted @ 2024-01-24 19:14 IT运维监控 阅读(271) 评论(0) 推荐(0)
摘要:当我们在制作仪表盘或其他数据可视化时离不开对图表的选择,不同的数据信息该怎么选择图表可能是不少人会遇到的问题。 要解决这个问题我们首先需要理解数据可视化的生成规律或者说是“语法”,目前主流的数据可视化理论认为,可视化是由基础标记(Mark)沿着某个或是某些视觉通道(Visual channel)进行 阅读全文
posted @ 2024-03-06 14:09 IT运维监控 阅读(159) 评论(0) 推荐(0)
摘要:经过一个半月的打磨改进,夜莺监控 V7 第二个 beta 版本发布了,本次发布的主要亮点是内置集成故障自愈能力,简化架构,同时做了其他 19 项改进。一些重要的改进如下: feat: 集成故障自愈的能力,不需要再单独部署 ibex 模块了 refactor: 内置仪表盘和内置规则页面重构 refac 阅读全文
posted @ 2024-04-17 19:23 IT运维监控 阅读(181) 评论(0) 推荐(0)
摘要:虽说监控系统最侧重的功能是指标采集、存储、分析、告警,为了能够快速恢复故障,告警自愈机制也是需要重点投入建设的,所有可以固化为脚本的应急预案都可以使用告警自愈机制来快速驱动。夜莺开源项目从 v7 版本开始内置了告警自愈模块,本文将详细介绍告警自愈的原理和实现。 夜莺项目介绍 夜莺监控是一款开源云原生 阅读全文
posted @ 2024-05-08 16:59 IT运维监控 阅读(696) 评论(0) 推荐(0)
摘要:谈起当下监控,Prometheus 无疑是最火的项目,如果只是监控机器、网络设备,Zabbix 尚可一战,如果既要监控设备又要监控应用程序、Kubernetes 等基础设施,Prometheus 就是最佳选择。甚至有些开源项目,已经内置支持了 Prometheus 协议的指标暴露,比如新版本的 Zo 阅读全文
posted @ 2024-05-09 18:05 IT运维监控 阅读(1293) 评论(0) 推荐(0)
摘要:这个版本最大的改动,就是仪表盘变量和业务组下的机器联动。大家可以导入这个大盘做测试: https://github.com/ccfos/nightingale/blob/main/integrations/Linux/dashboards/host_generic_categraf.json 这是查 阅读全文
posted @ 2024-05-23 14:19 IT运维监控 阅读(250) 评论(0) 推荐(0)
摘要:Prometheus 生态的原生做法,由于阈值是放在 promql 中的,恢复时的消息中难以拿到恢复时的值,夜莺 v7.0.0.beta10 版本开始,提供了一种较为简单的内置方式,解决这个问题。下面我们就来看一下如何实现这个能力。 升级方法 从 v6 版本开始,程序自动创建表结构,所以 v6、v7 阅读全文
posted @ 2024-06-12 15:40 IT运维监控 阅读(357) 评论(0) 推荐(0)
摘要:之前翻译过一篇文章,介绍 MySQL 监控的一些原理,本文侧重实操,使用夜莺 v7.beta12.1 版本为大家做一个演示,采集器使用 Categraf,先看一下最终仪表盘效果: 下面开工。 1. 安装夜莺和 Categraf 夜莺的安装可以参考 夜莺官方文档,Categraf 的安装可以参考 Ca 阅读全文
posted @ 2024-07-11 11:26 IT运维监控 阅读(887) 评论(0) 推荐(0)
摘要:上一篇文章《使用 Categraf 快速建设 MySQL 监控,同时介绍夜莺模板中心》我们已经了解了如何使用夜莺配合 Categraf 监控 MySQL,本节我们重点看看 Redis 监控的实操方案。 Redis 监控资料 首先还是去模板中心找到 Redis 插件相关的说明和各类模板,菜单位置在:集 阅读全文
posted @ 2024-07-22 17:18 IT运维监控 阅读(445) 评论(0) 推荐(0)
摘要:前言 监控系统的重要性不言而喻,国内用的最多的应该是 Zabbix 和 Prometheus,其优缺点: Zabbix 是资产管理式,监控数据存在数据库中,擅长设备监控,不擅长微服务和云原生环境的监控;推出时间较早,社区活跃度较高 Prometheus 是云原生环境的监控利器,支持多维度的指标数据, 阅读全文
posted @ 2024-08-20 09:44 IT运维监控 阅读(506) 评论(0) 推荐(1)
摘要:这个版本来得迟了一些,主要是新功能加的多,下面简单介绍一下新功能,下下周也计划做一次直播讲解。 支持 ClickHouse 告警 夜莺最重要的定位是告警引擎,所以会持续增加各类数据源的告警支持,ClickHouse 之后还有 Doris、MySQL、Postgres 等。 开源版主要是支持告警,不会 阅读全文
posted @ 2025-06-04 08:55 IT运维监控 阅读(169) 评论(0) 推荐(0)
摘要:夜莺监控项目最核心的定位,是做一个告警引擎,支持多种数据源的告警。这个版本的更新主要是增加了对 MySQL 数据源的支持,进一步增强了夜莺在业务指标监控方面的能力。 之前版本的夜莺主要聚焦在 Prometheus、VictoriaMetrics、ElasticSearch 等传统监控数据源上,从上个 阅读全文
posted @ 2025-06-11 09:29 IT运维监控 阅读(141) 评论(0) 推荐(0)
摘要:夜莺监控发布了 v8.beta14 版本,这个版本是可以上生产的,强烈建议升级。正式版会在每年夜莺大会上发布,今年预计是 7.4 号。 下面快速介绍一下 v8.beta14 的主要更新。 beta14 重点更新 支持 Postgres 告警 又支持了一个新的告警数据源:Postgres,可以对 Po 阅读全文
posted @ 2025-06-24 08:21 IT运维监控 阅读(315) 评论(0) 推荐(0)
摘要:今天在北京举办了 第三届CCF·夜莺开源创新论坛 的线下大会,正式发布夜莺 V8 版本,一直在等待正式版再上生产的小伙伴们,可以升级啦! 先给大家贴几张照片,感受一下大会的盛况,再给大家介绍一下 V8 版本的主要更新 😎 首先由尊敬的 中国计算机学会开源发展委员会主任王怀民,为大会做了致辞。夜莺项 阅读全文
posted @ 2025-07-07 10:01 IT运维监控 阅读(365) 评论(0) 推荐(0)
摘要:有朋友问:我是业务应用的 DEV 或 SRE,我的应用依赖了底层服务和基础设施,比如依赖基础网络、Kubernetes、MySQL、收银台服务,那这些基础服务如果出问题,我应该收告警吗?夜莺里有个订阅规则,是不是就是为此设计的? 本文讲讲笔者的个人理解,欢迎大家留言一起探讨实践经验。 首先,请大家看 阅读全文
posted @ 2025-07-24 15:27 IT运维监控 阅读(412) 评论(0) 推荐(0)
摘要:对于很多偏传统的企业,尚未大规模应用 Kubernetes 技术,也没有为应用埋点,此时进程监控就很关键了。最典型的需求就是监控进程的存活性和进程的资源(CPU、内存等)占用。 本文分享使用夜莺监控开源项目和 Categraf 来构建这个监控能力。 夜莺监控简介 夜莺监控(Nightingale)是 阅读全文
posted @ 2025-08-08 13:27 IT运维监控 阅读(600) 评论(0) 推荐(1)
摘要:Prometheus 体系貌似已经成为新时代的监控标准,运维出去找工作,很多公司都要求掌握 Prometheus 相关知识。 但是,Prometheus 实际在应用时,通常会遇到一个典型问题:告警规则管理问题。体现为: 想要把 Prometheus 能力开放给全公司各个团队自助服务。但是告警规则需要 阅读全文
posted @ 2025-08-10 11:04 IT运维监控 阅读(327) 评论(0) 推荐(0)
摘要:Prometheus 生态已经成为新时代的监控标准,很多公司都用到了 Prometheus 生态的产品。在使用 Prometheus 过程中,经常有人困惑:为何在告警恢复时拿不到恢复时的值? 我们从原理来分析,帮大家解疑答惑。 Prometheus 告警原理 Prometheus 的整个告警流程,涉 阅读全文
posted @ 2025-08-12 10:00 IT运维监控 阅读(62) 评论(0) 推荐(0)
摘要:本文介绍夜莺开源项目(Nightingale)的模板函数,夜莺内置了很多模板函数,可以对告警事件做一些渲染调整,方便 On-call 人员根据告警事件处理告警。 本文大纲: 夜莺开源项目简介 夜莺模板函数用途场景 夜莺模板函数分类 附加查询函数 格式化函数 字符串处理函数 时间处理函数 数学运算函数 阅读全文
posted @ 2025-08-12 15:20 IT运维监控 阅读(131) 评论(0) 推荐(0)
摘要:对于 IT 的稳定性保障,越来越受到重视,据国外数据统计,监控、可观测性相关的支出大概占总体 IT 支出的 5%~8% 左右。CNCF 作为知名基金会,旗下最有名的项目当属 Kubernetes,其次两个重点项目 OpenTelemetry 和 Prometheus 都与监控、可观测性相关。 可观测 阅读全文
posted @ 2025-08-14 19:26 IT运维监控 阅读(512) 评论(0) 推荐(2)
摘要:在监控、可观测性领域,Grafana 应该是使用最为广泛的开源项目了,Grafana 可以对接多种数据源,对其中的数据做可视化分析。 实际上,Grafana 也可以配置告警规则,只是设计上相对拧巴,用户用的比较少。因为大部分情况下,告警都是使用 Prometheus,所以用户就直接在 Prometh 阅读全文
posted @ 2025-08-21 15:35 IT运维监控 阅读(117) 评论(0) 推荐(0)
摘要:今天遇到开源社区咨询:夜莺里如何引用标签和注解变量?这个问题如果通读文档,其实也能找到答案,不过相关知识是散落在各处的,这里就集中说一下,方便大家查阅。 哪里可以引用标签和注解变量 主要有两个地方引用标签和注解变量: 告警规则 告警规则的备注、附加信息,可以引用标签变量。对于不同的告警规则生成的告警 阅读全文
posted @ 2025-08-25 12:04 IT运维监控 阅读(224) 评论(0) 推荐(0)
摘要:夜莺监控从 8.3 版本开始引入了新版的表格,力争对齐 Grafana(Grafana 积累了多年,确实太强了),本文图文并茂手把手教你配置一个 Table 仪表盘出来,用于展示机器列表,当然了,交换机、MySQL 实例等其他监控对象,也可以通过这个方式展示。 先看效果 JSON 文件:https: 阅读全文
posted @ 2025-09-01 15:42 IT运维监控 阅读(497) 评论(0) 推荐(0)
摘要:这将是一个系列,讲解 夜莺监控 的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。 整体定位 了解一个开源项目,最应该了解的就是其定位,或者说它要解决的问题域。 夜莺的定位就是四个字:告警引擎。夜莺对接多种数据源(比如 Prometheus、VictoriaMetrics、MySQL、Cl 阅读全文
posted @ 2025-10-14 09:33 IT运维监控 阅读(368) 评论(0) 推荐(2)
摘要:这将是一个系列,讲解 夜莺监控 的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。 本系列其他文章: 夜莺监控设计思考(一)项目定位、组件思考、单进程多进程选择、高可用设计 下面开始第2篇。 上一篇我们遗留了一个话题,就是如果贵司有多个数据中心,而且数据中心之间网络链路较差,此时应该怎么办 阅读全文
posted @ 2025-10-16 19:48 IT运维监控 阅读(215) 评论(0) 推荐(1)
摘要:这将是一个系列,讲解 夜莺监控 的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。 本系列其他文章: 夜莺监控设计思考(一)项目定位、组件思考、单进程多进程选择、高可用设计 夜莺监控设计思考(二)边缘架构的缘起和设计 本篇主要回答: 夜莺和时序库对接的设计逻辑 夜莺和 agent 对接的设 阅读全文
posted @ 2025-10-28 20:20 IT运维监控 阅读(178) 评论(0) 推荐(1)
摘要:这将是一个系列,讲解 夜莺监控 的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。 本系列其他文章: 夜莺监控设计思考(一)项目定位、组件思考、单进程多进程选择、高可用设计 夜莺监控设计思考(二)边缘架构的缘起和设计 夜莺监控设计思考(三)时序库、agent 的一些设计考量 本篇聊聊夜莺里 阅读全文
posted @ 2025-10-29 11:15 IT运维监控 阅读(210) 评论(0) 推荐(0)
摘要:这将是一个系列,讲解 夜莺监控 的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。 本系列其他文章: 夜莺监控设计思考(一)项目定位、组件思考、单进程多进程选择、高可用设计 夜莺监控设计思考(二)边缘架构的缘起和设计 夜莺监控设计思考(三)时序库、agent 的一些设计考量 夜莺监控设计思 阅读全文
posted @ 2025-10-31 16:08 IT运维监控 阅读(118) 评论(0) 推荐(0)