会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
IT运维监控/可观测性
运维监控、运维自动化、Prometheus、Nightingale、Categraf
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
19
下一页
2025年8月14日
夜莺监控的几种架构模式详解
摘要: 对于 IT 的稳定性保障,越来越受到重视,据国外数据统计,监控、可观测性相关的支出大概占总体 IT 支出的 5%~8% 左右。CNCF 作为知名基金会,旗下最有名的项目当属 Kubernetes,其次两个重点项目 OpenTelemetry 和 Prometheus 都与监控、可观测性相关。 可观测
阅读全文
posted @ 2025-08-14 19:26 IT运维监控
阅读(415)
评论(0)
推荐(2)
2025年8月13日
监控系统如何选型:Zabbix vs Prometheus
摘要: 经常收到网友提问,监控系统选型,到底应该选择 Zabbix 还是 Prometheus?本文谈一下个人看法,希望对你有所启发。 时代决定了基因 Zabbix 是 2001 年左右发布的,那个时代,微服务和 Kubernetes 都不盛行,Zabbix 更多的是关注网络设备、服务器、数据库等传统 IT
阅读全文
posted @ 2025-08-13 14:43 IT运维监控
阅读(490)
评论(0)
推荐(3)
2025年8月12日
夜莺开源监控,模板函数一览
摘要: 本文介绍夜莺开源项目(Nightingale)的模板函数,夜莺内置了很多模板函数,可以对告警事件做一些渲染调整,方便 On-call 人员根据告警事件处理告警。 本文大纲: 夜莺开源项目简介 夜莺模板函数用途场景 夜莺模板函数分类 附加查询函数 格式化函数 字符串处理函数 时间处理函数 数学运算函数
阅读全文
posted @ 2025-08-12 15:20 IT运维监控
阅读(72)
评论(0)
推荐(0)
Prometheus 告警时为何无法获取现场值
摘要: Prometheus 生态已经成为新时代的监控标准,很多公司都用到了 Prometheus 生态的产品。在使用 Prometheus 过程中,经常有人困惑:为何在告警恢复时拿不到恢复时的值? 我们从原理来分析,帮大家解疑答惑。 Prometheus 告警原理 Prometheus 的整个告警流程,涉
阅读全文
posted @ 2025-08-12 10:00 IT运维监控
阅读(35)
评论(0)
推荐(0)
2025年8月10日
为 Prometheus 告警规则增加 UI 管理能力
摘要: Prometheus 体系貌似已经成为新时代的监控标准,运维出去找工作,很多公司都要求掌握 Prometheus 相关知识。 但是,Prometheus 实际在应用时,通常会遇到一个典型问题:告警规则管理问题。体现为: 想要把 Prometheus 能力开放给全公司各个团队自助服务。但是告警规则需要
阅读全文
posted @ 2025-08-10 11:04 IT运维监控
阅读(293)
评论(0)
推荐(0)
2025年8月8日
如何监控多个进程的存活和CPU、内存占用
摘要: 对于很多偏传统的企业,尚未大规模应用 Kubernetes 技术,也没有为应用埋点,此时进程监控就很关键了。最典型的需求就是监控进程的存活性和进程的资源(CPU、内存等)占用。 本文分享使用夜莺监控开源项目和 Categraf 来构建这个监控能力。 夜莺监控简介 夜莺监控(Nightingale)是
阅读全文
posted @ 2025-08-08 13:27 IT运维监控
阅读(525)
评论(0)
推荐(1)
2025年7月29日
Kafka 不难,只是你用得不对
摘要: 本文分享使用 Kafka 的一些经典模式。有时你感觉 Kafka 好难搞,可能是因为不了解这些模式。 让我们从基础开始: 1.每个事件类型一个主题 反模式: orders-service-topic shipping-service-topic analytics-service-topic 每个服
阅读全文
posted @ 2025-07-29 17:05 IT运维监控
阅读(87)
评论(0)
推荐(0)
2025年7月24日
底层的告警,上层业务应该收吗?
摘要: 有朋友问:我是业务应用的 DEV 或 SRE,我的应用依赖了底层服务和基础设施,比如依赖基础网络、Kubernetes、MySQL、收银台服务,那这些基础服务如果出问题,我应该收告警吗?夜莺里有个订阅规则,是不是就是为此设计的? 本文讲讲笔者的个人理解,欢迎大家留言一起探讨实践经验。 首先,请大家看
阅读全文
posted @ 2025-07-24 15:27 IT运维监控
阅读(389)
评论(0)
推荐(0)
2025年7月23日
CPU 负载高,到底应不应该告警?
摘要: CPU 负载高,到底应不应该告警? 不告警吧,出了问题怕被怼,嫌你告警缺失 告警吧,好像全是噪音,工程师都自动忽略了 尴尬... 成年人的世界没有非黑即白,如果要严肃的论述,就要加很多限定词,为了避免歧义拉齐认知,我先补充一点前置知识(原则)。 前置知识(原则) 告警应该有不同的紧迫级别,有些公司甚
阅读全文
posted @ 2025-07-23 14:35 IT运维监控
阅读(688)
评论(1)
推荐(1)
2025年7月7日
夜莺监控 V8 正式版,来了!
摘要: 今天在北京举办了 第三届CCF·夜莺开源创新论坛 的线下大会,正式发布夜莺 V8 版本,一直在等待正式版再上生产的小伙伴们,可以升级啦! 先给大家贴几张照片,感受一下大会的盛况,再给大家介绍一下 V8 版本的主要更新 😎 首先由尊敬的 中国计算机学会开源发展委员会主任王怀民,为大会做了致辞。夜莺项
阅读全文
posted @ 2025-07-07 10:01 IT运维监控
阅读(204)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
19
下一页
公告