会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
IT运维监控/可观测性
运维监控、运维自动化、Prometheus、Nightingale、Categraf
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
10
···
19
下一页
2024年10月29日
VictoriaMetrics 中文教程(10)集群版介绍
摘要: VictoriaMetrics 中文教程系列文章: VictoriaMetrics 中文教程(01)简介 VictoriaMetrics 中文教程(02)安装 VictoriaMetrics 中文教程(03)如何配置 Prometheus 使其把数据远程写入 VictoriaMetrics Vict
阅读全文
posted @ 2024-10-29 07:39 IT运维监控
阅读(672)
评论(0)
推荐(1)
2024年10月8日
夜莺监控的机器支持挂载到多个业务组了
摘要: 夜莺开源项目于国庆前夕发布了 v7.4.1 版本,修复了一些 bug,同时也带来了一些新功能。其中最重要的一个功能是:机器支持挂载到多个业务组了。本文将介绍几个重要的变更。 所有变更点 feat: 左侧栏业务组新设计 feat: 机器支持了绑定到多个业务组,机器混部的场景,管理机器更加方便了 fea
阅读全文
posted @ 2024-10-08 14:37 IT运维监控
阅读(85)
评论(0)
推荐(0)
2024年9月14日
Datadog 监控最佳实践 | 收集正确的数据
摘要: 本文是Datadog“高效监控”系列的第一篇,后面还会有第二篇《针对重要事项发出警报》和《调查性能问题》。 监控数据有多种形式 - 一些系统不断地输出数据,而另一些系统仅在罕见事件发生时才产生数据。有些数据主要用于识别发现问题、有些数据主要用于调查问题。更宽泛地说,监控数据是观察系统内部运行情况的必
阅读全文
posted @ 2024-09-14 09:51 IT运维监控
阅读(357)
评论(0)
推荐(0)
2024年9月6日
服务稳定性保障的五大误解
摘要: 在线服务的稳定性保障一直是运维和技术部门的核心工作之一。但时至今日,这个方向实际仍然有很多基本的概念都没有对齐。今天这篇文章就罗列下那些混淆不清的概念,期望有一天大家沟通时不是鸡同鸭讲,各说各话。 误解一:服务可用性 听过很多技术分享,看过很多平台的承诺,上来都是讲我们的服务稳定性99.9xx%,但
阅读全文
posted @ 2024-09-06 15:07 IT运维监控
阅读(88)
评论(0)
推荐(0)
2024年9月4日
企业分享 - 益丰大药房监控升级之路
摘要: 益丰大药房是全国大型药品零售连锁企业(中国沪市主板上市连锁药房),专注医药零售行业23载, 市值稳居国内上市连锁药店前列/中国上市公司500强。 益丰有体量庞大的研发运维团队,有体量庞大的 IT 设施和服务,为了能够更好的监控这些设施和服务,益丰在多年前就开始建设监控系统,本文分享益丰的监控升级之路
阅读全文
posted @ 2024-09-04 16:56 IT运维监控
阅读(84)
评论(0)
推荐(0)
2024年9月3日
无需推翻既有的建设,这个可观测性产品思路清奇
摘要: 市面上已经有很多开源、商业的可观测性类产品,比如 Zabbix、Prometheus、Nightingale、SigNoz、SkyWalking、ELK 等等,而且各类云厂商也会提供自己的可观测性套件,有些规划混乱的云厂商甚至会提供功能重叠的多套产品,这加剧了企业数据孤岛的现状。来看两组数据: 据不
阅读全文
posted @ 2024-09-03 11:07 IT运维监控
阅读(183)
评论(0)
推荐(0)
2024年8月30日
海大集团的可观测平台建设实践
摘要: 海大集团介绍 海大集团是以科技为主导的中国农业龙头企业,1998年成立于广东广州,目前业务涵盖饲料、种苗、动保疫苗、智慧养殖、食品加工等现代农牧全产业链,在全球拥有分子公司逾600家、员工达4万人,位列2023中国企业500强第238位、2023中国民营企业500强第87位。凭借亮眼的业务表现和品牌
阅读全文
posted @ 2024-08-30 11:45 IT运维监控
阅读(187)
评论(0)
推荐(0)
2024年8月29日
Prometheus 告警恢复时,怎么获取恢复时的值?
摘要: Prometheus 告警事件中的 $value 表示当前告警触发时的值,但是在告警恢复时,Resolved 事件中的 $value 仍然是最新告警时的值,并非是恢复时的值,这是什么原因和原理?是否有办法来解决呢? 不废话,先说原理。 原理 告警规则是配置在 prometheus.yaml 中的,由
阅读全文
posted @ 2024-08-29 17:11 IT运维监控
阅读(458)
评论(0)
推荐(0)
2024年8月28日
关于告警,要想做好,从这些方面着手
摘要: 各类监控系统都会产生告警事件,于是,就产生了 FlashDuty、PagerDuty、Opsgenie 这类产品,做告警事件的收敛降噪、排班认领升级等。如果你想增强自己公司的告警事件处理能力,参考(chao xi)这些产品的功能就可以了 😎。 告警集成:目标是在一个Oncall平台上处理所有告警,
阅读全文
posted @ 2024-08-28 14:56 IT运维监控
阅读(581)
评论(0)
推荐(2)
2024年8月27日
SRE 必备知识 - Kafka 探秘之零拷贝技术
摘要: 如果你了解过 Kafka,那么它用到的一个性能优化技术可能会引起你的注意 -- 操作系统的零拷贝(zero-copy)优化。 零拷贝操作可以避免对数据的非必要拷贝,当然,并非是说完全没有拷贝。 在 Kafka 的场景下,操作系统可以从 page cache 拷贝数据到 socket buffer,直
阅读全文
posted @ 2024-08-27 11:31 IT运维监控
阅读(330)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
10
···
19
下一页
公告