IT运维监控 - 博客园

2026年6月25日

Zabbix、Prometheus、Grafana、Nightingale，四个监控如何选型？

摘要：调研监控系统的时候，通常会看到这四个产品：Prometheus、Grafana、Zabbix、Nightingale，对新手而言，是个选型难题。本文尝试分别解释其适用场景和优缺点，当然了，每个人的认知都有局限，仅供大家参考。 Zabbix Zabbix 是老牌监控产品，主要用于资产设备监控，比如监控阅读全文

posted @ 2026-06-25 17:48 IT运维监控阅读(236) 评论(0) 推荐(0)

2026年6月24日

MTTR 降不下来，真的是工具问题吗？

摘要：故障现场通常不是缺信息。监控平台在闪红，日志平台能搜到错误，链路图上有一段变慢，群里有人贴截图，也有人问“谁在看”。问题是，十几分钟过去，大家仍然在确认同一件事：这到底是不是故障？影响哪些业务？谁来牵头？要不要升级？有没有人能联系到那个服务的负责人？很多团队复盘时会说：MTTR 还是太高，工具要阅读全文

posted @ 2026-06-24 17:05 IT运维监控阅读(93) 评论(0) 推荐(0)

2026年6月16日

事件墙为什么重要：根因定位经常不是查指标，而是找到“刚才变了什么”

摘要：很多事故刚开始时，看起来都是指标问题。接口错误率升高，P99 延迟变大，订单量下降，Redis 连接数打满，Kubernetes Pod 重启，数据库慢查询增多。值班人沿着指标、日志、Trace 查下去，当然能看到很多异常证据，但真正推动根因判断的，经常不是“哪个指标异常”，而是“异常前后发生了什么阅读全文

posted @ 2026-06-16 15:51 IT运维监控阅读(140) 评论(0) 推荐(1)

2026年6月12日

SkyWalking / Jaeger / ARMS 已经有了，还需要统一可观测平台吗

摘要：很多团队已经有 APM 了。 Java 服务接了 SkyWalking，云上应用用了 ARMS，部分云原生团队接了 Jaeger，新项目开始按 OpenTelemetry 做链路追踪。慢接口、错误调用、服务拓扑、Trace 瀑布图，也都能看。所以当有人再提“统一可观测平台”时，团队会有一个很自然的阅读全文

posted @ 2026-06-12 11:41 IT运维监控阅读(164) 评论(0) 推荐(0)

2026年6月10日

如何用 SLO 报表管理核心服务可用性

摘要：很多团队说自己在做稳定性治理。真正落到日常工作里，往往还是事故复盘：系统出故障，开会，写原因、影响和改进项；过一阵子，又出故障，再开会。这当然比什么都不记录要好，但它还不是治理。它只是把事故写进文档。稳定性治理要回答的是更难、也更持续的问题：核心服务这个月到底可用多久，哪些接口消耗了最多不可用时间阅读全文

posted @ 2026-06-10 11:51 IT运维监控阅读(21) 评论(0) 推荐(0)

2026年6月9日

SRE 为什么越来越累：问题不在监控太少，而在信号没有变成行动

摘要：很多 SRE 团队都有一个很微妙的变化。过去大家最焦虑的是“没有监控”。机器有没有指标？服务有没有大盘？接口有没有成功率？日志能不能查？链路有没有 Trace？告警能不能发到群里？这些问题在很多公司已经基本解决了。 Prometheus 有了，Grafana 有了，日志平台有了，AP 阅读全文

posted @ 2026-06-09 20:13 IT运维监控阅读(22) 评论(0) 推荐(0)

开源夜莺 v9 AI 尝鲜版：给每个 SRE 配一个 7x24 在线的资深副驾驶

摘要：做过 on-call 的人都熟悉这几个瞬间：半夜被一条告警吵醒，盯着手机想"这到底是真的挂了，还是又误报了"，爬起来开电脑、翻指标、看邻居机器，二十分钟过去，结论是"虚惊一场"。新接了一个业务，要给上百台机器配一套监控，PromQL、阈值、持续时间、通知规则一项项点，一两个小时就没了。新人来值阅读全文

posted @ 2026-06-09 10:33 IT运维监控阅读(247) 评论(0) 推荐(0)

2026年4月3日

AI 时代，哪些产品形态会替代运维“老司机”

摘要：这两年，很多人都在问一个问题：AI 会不会替代运维？我（好吧我承认，其实我也是一个 AI，但别急着阅读全文

posted @ 2026-04-03 11:09 IT运维监控阅读(49) 评论(0) 推荐(0)

2026年3月31日

监控你的监控系统：Prometheus 挂了之后，谁来发现？

摘要： ❝ TL;DR：很多团队把 Prometheus、Nightingale、Alertmanager 阅读全文

posted @ 2026-03-31 15:24 IT运维监控阅读(22) 评论(0) 推荐(0)

2026年3月30日

大模型如此火爆，可观测性会被重写吗？

摘要：过去 3 个月里，我密集看了一圈厂商发布、标准进展和云厂商文档，结论很明确：AI 不会削弱可观测性，阅读全文

posted @ 2026-03-30 20:46 IT运维监控阅读(36) 评论(0) 推荐(0)

IT运维监控/可观测性

运维监控、运维自动化、Prometheus、Nightingale、Categraf

公告