会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
IT运维监控/可观测性
运维监控、运维自动化、Prometheus、Nightingale、Categraf
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
19
下一页
2025年7月29日
Kafka 不难,只是你用得不对
摘要: 本文分享使用 Kafka 的一些经典模式。有时你感觉 Kafka 好难搞,可能是因为不了解这些模式。 让我们从基础开始: 1.每个事件类型一个主题 反模式: orders-service-topic shipping-service-topic analytics-service-topic 每个服
阅读全文
posted @ 2025-07-29 17:05 IT运维监控
阅读(93)
评论(0)
推荐(0)
2025年7月24日
底层的告警,上层业务应该收吗?
摘要: 有朋友问:我是业务应用的 DEV 或 SRE,我的应用依赖了底层服务和基础设施,比如依赖基础网络、Kubernetes、MySQL、收银台服务,那这些基础服务如果出问题,我应该收告警吗?夜莺里有个订阅规则,是不是就是为此设计的? 本文讲讲笔者的个人理解,欢迎大家留言一起探讨实践经验。 首先,请大家看
阅读全文
posted @ 2025-07-24 15:27 IT运维监控
阅读(396)
评论(0)
推荐(0)
2025年7月23日
CPU 负载高,到底应不应该告警?
摘要: CPU 负载高,到底应不应该告警? 不告警吧,出了问题怕被怼,嫌你告警缺失 告警吧,好像全是噪音,工程师都自动忽略了 尴尬... 成年人的世界没有非黑即白,如果要严肃的论述,就要加很多限定词,为了避免歧义拉齐认知,我先补充一点前置知识(原则)。 前置知识(原则) 告警应该有不同的紧迫级别,有些公司甚
阅读全文
posted @ 2025-07-23 14:35 IT运维监控
阅读(701)
评论(1)
推荐(1)
2025年7月7日
夜莺监控 V8 正式版,来了!
摘要: 今天在北京举办了 第三届CCF·夜莺开源创新论坛 的线下大会,正式发布夜莺 V8 版本,一直在等待正式版再上生产的小伙伴们,可以升级啦! 先给大家贴几张照片,感受一下大会的盛况,再给大家介绍一下 V8 版本的主要更新 😎 首先由尊敬的 中国计算机学会开源发展委员会主任王怀民,为大会做了致辞。夜莺项
阅读全文
posted @ 2025-07-07 10:01 IT运维监控
阅读(295)
评论(0)
推荐(0)
2025年6月24日
夜莺监控V8发版,内置支持 DeepSeek 对接
摘要: 夜莺监控发布了 v8.beta14 版本,这个版本是可以上生产的,强烈建议升级。正式版会在每年夜莺大会上发布,今年预计是 7.4 号。 下面快速介绍一下 v8.beta14 的主要更新。 beta14 重点更新 支持 Postgres 告警 又支持了一个新的告警数据源:Postgres,可以对 Po
阅读全文
posted @ 2025-06-24 08:21 IT运维监控
阅读(270)
评论(0)
推荐(0)
2025年6月11日
开源夜莺支持MySQL数据源,更方便做业务指标监控了
摘要: 夜莺监控项目最核心的定位,是做一个告警引擎,支持多种数据源的告警。这个版本的更新主要是增加了对 MySQL 数据源的支持,进一步增强了夜莺在业务指标监控方面的能力。 之前版本的夜莺主要聚焦在 Prometheus、VictoriaMetrics、ElasticSearch 等传统监控数据源上,从上个
阅读全文
posted @ 2025-06-11 09:29 IT运维监控
阅读(126)
评论(0)
推荐(0)
2025年6月4日
开源夜莺V8.Beta11发版,支持CK告警、事件Pipeline等
摘要: 这个版本来得迟了一些,主要是新功能加的多,下面简单介绍一下新功能,下下周也计划做一次直播讲解。 支持 ClickHouse 告警 夜莺最重要的定位是告警引擎,所以会持续增加各类数据源的告警支持,ClickHouse 之后还有 Doris、MySQL、Postgres 等。 开源版主要是支持告警,不会
阅读全文
posted @ 2025-06-04 08:55 IT运维监控
阅读(152)
评论(0)
推荐(0)
2025年5月28日
运维想转SRE?先了解这7个原则
摘要: 站点可靠性工程,或 SRE,是一种将运维问题视为软件问题的方法。这一概念最初由 Google 工程师 Ben Treynor Sloss 在 2003 年提出并描述。作为一门学科,站点可靠性工程(SRE)旨在维持特定系统的可用性、性能和效率。 SRE 难以界定。它是一种方法或学科,而不是一套具体的指
阅读全文
posted @ 2025-05-28 08:00 IT运维监控
阅读(118)
评论(0)
推荐(0)
2025年5月20日
顶级流媒体服务商 Spotify 2025.04 故障复盘报告,吃他人的堑长自己的智
摘要: 2025 年 4 月 16 日,Spotify 经历了一次影响全球用户的中断。以下就是发生了什么以及我们将如何解决它。 背景 我们使用 Envoy Proxy 作为我们的网络外围系统。外围是我们的软件接收用户(您!)网络流量的第一部分。然后,它将流量分发到其他服务。我们使用云区域将流量合理地分布在世
阅读全文
posted @ 2025-05-20 15:41 IT运维监控
阅读(73)
评论(0)
推荐(0)
2025年5月7日
可观测性第四大支柱:配置数据的监控
摘要: 业内经常讲可观测性有三大支柱:指标、日志、链路追踪,本文作者认为,还有第四大支柱:那就是配置类数据。配置类数据的变更也会影响系统的稳定性,也值得被监控,方便我们快速排查问题。 原文链接:https://www.cloudquery.io/blog/fourth-lost-pillar-of-obse
阅读全文
posted @ 2025-05-07 11:30 IT运维监控
阅读(58)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
19
下一页
公告