摘要: 笔者从 12 年开始入行,从事 DevOps 研发工作,做过部署系统、监控系统、可观测性相关产品,也做过 SRE 一线和管理工作,对于可观测性的理解和实践,有一些小小的见解,利用本文和大家做一个探讨分享。本文主要内容包括: 可观测性在整个商业体系中的位置和价值 如何快速发现故障,使用哪类指标告警 S 阅读全文
posted @ 2023-06-19 10:05 IT运维监控 阅读(355) 评论(0) 推荐(0)
摘要: 之前新东方的老师分享了他们通过 Telegraf、Loki、Nightingale 等工具来监控机器硬件状态的方案,具备很强的灵活性、平台性。本文会介绍一个相对轻量的方式,只需要一个二进制+一个脚本即可搞定,给各位朋友提供一种新的选择 阅读全文
posted @ 2023-06-14 17:03 IT运维监控 阅读(485) 评论(0) 推荐(0)
摘要: ## Core Dump 是什么? Core Dump 是指进程异常退出时,操作系统将进程的内存状态保存到文件中,这个文件就是 Core Dump 文件,中文一般翻译为“核心转储”,哈,看起来还不如不翻译。 我们可以认为 Core Dump 是“内存快照”,但实际上,除了内存信息之外,还有些关键的程 阅读全文
posted @ 2023-06-13 15:15 IT运维监控 阅读(270) 评论(0) 推荐(0)
摘要: 问题 在系统日志中(/var/log/messages),有时会看到大面积的下面的报错: nf_conntrack: table full, dropping packet 这说明系统接到了大量的连接请求,但是系统的连接跟踪表已经满了,无法再记录新的连接了。这时候,系统会丢弃新的连接请求。 在 Ce 阅读全文
posted @ 2023-06-12 21:56 IT运维监控 阅读(275) 评论(0) 推荐(0)
摘要: catpaw一个绝对轻量的事件监控工具 阅读全文
posted @ 2023-06-08 10:37 IT运维监控 阅读(448) 评论(0) 推荐(0)
摘要: SRE 首要任务是制定并推动达成 SLO,本文介绍 SLO 的相关实践。成为 SRE 第一步:搞定 SLO,协助制定、推动达成! 阅读全文
posted @ 2023-05-26 17:05 IT运维监控 阅读(927) 评论(0) 推荐(0)
摘要: 不可能有 100% 的服务可用性,也没有必要做到 100% 的服务可用性。如何度量风险,如何制定 SLO,如何提升稳定性,如何权衡成本和产出 阅读全文
posted @ 2023-05-25 12:55 IT运维监控 阅读(279) 评论(0) 推荐(0)
摘要: 夜莺( Nightingale )安装方式,不同的场景使用不用的安装方式 阅读全文
posted @ 2023-05-18 11:45 IT运维监控 阅读(1291) 评论(0) 推荐(0)
摘要: SRE Google 运维解密,是 SRE 领域的启蒙之作,讲述了 Google 的 SRE 实践,SRE 就是从 Google 流传出来的。本文是读书笔记,第一篇,概述 SRE 方法论 阅读全文
posted @ 2023-05-17 14:31 IT运维监控 阅读(384) 评论(0) 推荐(0)
摘要: 集成Zabbix告警到FlashDuty,获得告警降噪、智能排班、IM协同等能力 阅读全文
posted @ 2023-05-16 11:53 IT运维监控 阅读(580) 评论(0) 推荐(0)