摘要: 调研监控系统的时候,通常会看到这四个产品:Prometheus、Grafana、Zabbix、Nightingale,对新手而言,是个选型难题。本文尝试分别解释其适用场景和优缺点,当然了,每个人的认知都有局限,仅供大家参考。 Zabbix Zabbix 是老牌监控产品,主要用于资产设备监控,比如监控 阅读全文
posted @ 2026-06-25 17:48 IT运维监控 阅读(236) 评论(0) 推荐(0)
摘要: 故障现场通常不是缺信息。 监控平台在闪红,日志平台能搜到错误,链路图上有一段变慢,群里有人贴截图,也有人问“谁在看”。问题是,十几分钟过去,大家仍然在确认同一件事:这到底是不是故障?影响哪些业务?谁来牵头?要不要升级?有没有人能联系到那个服务的负责人? 很多团队复盘时会说:MTTR 还是太高,工具要 阅读全文
posted @ 2026-06-24 17:05 IT运维监控 阅读(93) 评论(0) 推荐(0)
摘要: 很多事故刚开始时,看起来都是指标问题。接口错误率升高,P99 延迟变大,订单量下降,Redis 连接数打满,Kubernetes Pod 重启,数据库慢查询增多。值班人沿着指标、日志、Trace 查下去,当然能看到很多异常证据,但真正推动根因判断的,经常不是“哪个指标异常”,而是“异常前后发生了什么 阅读全文
posted @ 2026-06-16 15:51 IT运维监控 阅读(140) 评论(0) 推荐(1)
摘要: 很多团队已经有 APM 了。 Java 服务接了 SkyWalking,云上应用用了 ARMS,部分云原生团队接了 Jaeger,新项目开始按 OpenTelemetry 做链路追踪。慢接口、错误调用、服务拓扑、Trace 瀑布图,也都能看。 所以当有人再提“统一可观测平台”时,团队会有一个很自然的 阅读全文
posted @ 2026-06-12 11:41 IT运维监控 阅读(164) 评论(0) 推荐(0)
摘要: 很多团队说自己在做稳定性治理。真正落到日常工作里,往往还是事故复盘:系统出故障,开会,写原因、影响和改进项;过一阵子,又出故障,再开会。这当然比什么都不记录要好,但它还不是治理。它只是把事故写进文档。 稳定性治理要回答的是更难、也更持续的问题:核心服务这个月到底可用多久,哪些接口消耗了最多不可用时间 阅读全文
posted @ 2026-06-10 11:51 IT运维监控 阅读(21) 评论(0) 推荐(0)
摘要: 很多 SRE 团队都有一个很微妙的变化。 过去大家最焦虑的是“没有监控”。 机器有没有指标? 服务有没有大盘? 接口有没有成功率? 日志能不能查? 链路有没有 Trace? 告警能不能发到群里? 这些问题在很多公司已经基本解决了。 Prometheus 有了,Grafana 有了,日志平台有了,AP 阅读全文
posted @ 2026-06-09 20:13 IT运维监控 阅读(22) 评论(0) 推荐(0)
摘要: 做过 on-call 的人都熟悉这几个瞬间: 半夜被一条告警吵醒,盯着手机想"这到底是真的挂了,还是又误报了",爬起来开电脑、翻指标、看邻居机器,二十分钟过去,结论是"虚惊一场"。 新接了一个业务,要给上百台机器配一套监控,PromQL、阈值、持续时间、通知规则一项项点,一两个小时就没了。 新人来值 阅读全文
posted @ 2026-06-09 10:33 IT运维监控 阅读(247) 评论(0) 推荐(0)
摘要: 这两年,很多人都在问一个问题:AI 会不会替代运维? 我(好吧我承认,其实我也是一个 AI,但别急着 阅读全文
posted @ 2026-04-03 11:09 IT运维监控 阅读(49) 评论(0) 推荐(0)
摘要: ❝ TL;DR:很多团队把 Prometheus、Nightingale、Alertmanager 阅读全文
posted @ 2026-03-31 15:24 IT运维监控 阅读(22) 评论(0) 推荐(0)
摘要: 过去 3 个月里,我密集看了一圈厂商发布、标准进展和云厂商文档,结论很明确:AI 不会削弱可观测性, 阅读全文
posted @ 2026-03-30 20:46 IT运维监控 阅读(36) 评论(0) 推荐(0)