会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
IT运维监控/可观测性
运维监控、运维自动化、Prometheus、Nightingale、Categraf
博客园
首页
新随笔
联系
订阅
管理
2026年3月23日
那些你不知道自己需要监控的 Linux 暗坑
摘要: TL;DR:conntrack 表满了、ARP 邻居表溢出、内核参数被静默重置、listen 队列丢包……这些 Linux 内核层的"沉默杀手"不会出现在你的 Grafana 大盘上,但能让你的线上服务在几秒内崩溃。本文拆解 8 个真实暗坑,每个都附带故障原理和监控方案。 故事:K8s 集群丢包两天
阅读全文
posted @ 2026-03-23 15:53 IT运维监控
阅读(135)
评论(0)
推荐(0)
2026年2月24日
Nightingale(夜莺)官方 MCP Server:Cursor/AI 助手用自然语言操作监控与告警
摘要: Nightingale 的 MCP Server正式发布:https://github.com/n9e/n9e-mcp-server 。此 MCP Server 允许 AI 助手通过自然语言与夜莺 API 交互,实现告警管理、监控和可观测性任务。 兼容性 Nightingale:v8.0.0+ 主要
阅读全文
posted @ 2026-02-24 11:00 IT运维监控
阅读(337)
评论(0)
推荐(1)
2026年1月9日
Vector 日志采集实战:采集夜莺日志推送 VictoriaLogs 完整教程
摘要: 导读 VictoriaLogs 是一款高性能、低成本的时序数据库,广泛应用于监控和日志存储场景。Vector 是一个开源的日志和指标收集工具,支持多种数据源和目标。本文将介绍如何使用 Vector 采集夜莺(Nightingale)日志并推送给 VictoriaLogs,实现高效的日志管理和分析。
阅读全文
posted @ 2026-01-09 09:22 IT运维监控
阅读(968)
评论(0)
推荐(0)
2025年12月15日
Categraf 监控采集器常见问题汇总
摘要: 总结一下社区常见的问题,供大家参考。不过在描述具体问题之前,请先了解 Categraf 的核心职能: 采集监控指标 在即时查询里可以看到机器各个指标的历史趋势图,就是 Categraf 采集的监控指标。比如: 如果这个页面查不到机器的历史监控数据,说明采集、上报、存储链路出了问题。 上报机器元信息
阅读全文
posted @ 2025-12-15 19:54 IT运维监控
阅读(960)
评论(0)
推荐(0)
SRE 踩坑记:JVM 暂停竟然是因为日志
摘要: 在高性能计算领域,我们习惯于在代码、算法或基础设施中寻找瓶颈。但我遇到过的最棘手的问题却不在这些方面。那是Java虚拟机(JVM)的垃圾回收器与服务器磁盘之间一种无形的交互,导致一个每秒处理数百万请求的服务出现了15秒以上的全局暂停(STW)。 503 突增 我当时正在处理一个大规模的Java服务,
阅读全文
posted @ 2025-12-15 12:12 IT运维监控
阅读(1022)
评论(0)
推荐(1)
2025年10月31日
夜莺监控设计思考(五)告警原理和处理流程深度剖析
摘要: 这将是一个系列,讲解 夜莺监控 的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。 本系列其他文章: 夜莺监控设计思考(一)项目定位、组件思考、单进程多进程选择、高可用设计 夜莺监控设计思考(二)边缘架构的缘起和设计 夜莺监控设计思考(三)时序库、agent 的一些设计考量 夜莺监控设计思
阅读全文
posted @ 2025-10-31 16:08 IT运维监控
阅读(141)
评论(0)
推荐(0)
2025年10月29日
夜莺监控设计思考(四)关于机器那些事儿
摘要: 这将是一个系列,讲解 夜莺监控 的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。 本系列其他文章: 夜莺监控设计思考(一)项目定位、组件思考、单进程多进程选择、高可用设计 夜莺监控设计思考(二)边缘架构的缘起和设计 夜莺监控设计思考(三)时序库、agent 的一些设计考量 本篇聊聊夜莺里
阅读全文
posted @ 2025-10-29 11:15 IT运维监控
阅读(233)
评论(0)
推荐(0)
2025年10月28日
夜莺监控设计思考(三)时序库、agent 的一些设计考量
摘要: 这将是一个系列,讲解 夜莺监控 的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。 本系列其他文章: 夜莺监控设计思考(一)项目定位、组件思考、单进程多进程选择、高可用设计 夜莺监控设计思考(二)边缘架构的缘起和设计 本篇主要回答: 夜莺和时序库对接的设计逻辑 夜莺和 agent 对接的设
阅读全文
posted @ 2025-10-28 20:20 IT运维监控
阅读(195)
评论(0)
推荐(1)
2025年10月16日
夜莺监控设计思考(二)边缘机房架构思考
摘要: 这将是一个系列,讲解 夜莺监控 的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。 本系列其他文章: 夜莺监控设计思考(一)项目定位、组件思考、单进程多进程选择、高可用设计 下面开始第2篇。 上一篇我们遗留了一个话题,就是如果贵司有多个数据中心,而且数据中心之间网络链路较差,此时应该怎么办
阅读全文
posted @ 2025-10-16 19:48 IT运维监控
阅读(228)
评论(0)
推荐(1)
2025年10月14日
利用 OpenTelemetry 集成 JMX 监控
摘要: JMX 是什么? JMX 是 “Java Management Extensions” 的缩写,中文通常称为 “Java 管理扩展”。它是 Java 平台提供的一套标准框架,用于对 Java 应用程序、设备、系统资源进行监控和管理。 JMX 的核心作用包括: 监控 Java 程序运行状态(如内存使用
阅读全文
posted @ 2025-10-14 15:50 IT运维监控
阅读(232)
评论(0)
推荐(2)
下一页
公告