IT运维监控 - 博客园

2023年6月19日

摘要：笔者从 12 年开始入行，从事 DevOps 研发工作，做过部署系统、监控系统、可观测性相关产品，也做过 SRE 一线和管理工作，对于可观测性的理解和实践，有一些小小的见解，利用本文和大家做一个探讨分享。本文主要内容包括：可观测性在整个商业体系中的位置和价值如何快速发现故障，使用哪类指标告警 S 阅读全文

posted @ 2023-06-19 10:05 IT运维监控阅读(355) 评论(0) 推荐(0)

2023年6月14日

机器硬件监控，最简单的方案，没有之一

摘要：之前新东方的老师分享了他们通过 Telegraf、Loki、Nightingale 等工具来监控机器硬件状态的方案，具备很强的灵活性、平台性。本文会介绍一个相对轻量的方式，只需要一个二进制+一个脚本即可搞定，给各位朋友提供一种新的选择阅读全文

posted @ 2023-06-14 17:03 IT运维监控阅读(485) 评论(0) 推荐(0)

2023年6月13日

core dump 路径定义以及监控

摘要： ## Core Dump 是什么？ Core Dump 是指进程异常退出时，操作系统将进程的内存状态保存到文件中，这个文件就是 Core Dump 文件，中文一般翻译为“核心转储”，哈，看起来还不如不翻译。我们可以认为 Core Dump 是“内存快照”，但实际上，除了内存信息之外，还有些关键的程阅读全文

posted @ 2023-06-13 15:15 IT运维监控阅读(270) 评论(0) 推荐(0)

2023年6月12日

如何解决系统报错：nf_conntrack: table full, dropping packets

摘要：问题在系统日志中（/var/log/messages），有时会看到大面积的下面的报错： nf_conntrack: table full, dropping packet 这说明系统接到了大量的连接请求，但是系统的连接跟踪表已经满了，无法再记录新的连接了。这时候，系统会丢弃新的连接请求。在 Ce 阅读全文

posted @ 2023-06-12 21:56 IT运维监控阅读(275) 评论(0) 推荐(0)

2023年6月8日

太卷了，史上最简单的监控系统 catpaw 简介

摘要： catpaw一个绝对轻量的事件监控工具阅读全文

posted @ 2023-06-08 10:37 IT运维监控阅读(448) 评论(0) 推荐(0)

2023年5月26日

2 分钟，搞懂 SLO 最佳实践

摘要： SRE 首要任务是制定并推动达成 SLO，本文介绍 SLO 的相关实践。成为 SRE 第一步：搞定 SLO，协助制定、推动达成！阅读全文

posted @ 2023-05-26 17:05 IT运维监控阅读(927) 评论(0) 推荐(0)

2023年5月25日

SRE心里话：要求100%服务可用性就是老板的无知

摘要：不可能有 100% 的服务可用性，也没有必要做到 100% 的服务可用性。如何度量风险，如何制定 SLO，如何提升稳定性，如何权衡成本和产出阅读全文