摘要: Charity Majors 的这句话可能是对科技行业当前可观察性状态的最好总结——完全的、大规模的混乱。大家都很困惑。什么是 trace?什么是 span?一行日志就是一个 span 吗?如果我有日志,我还需要 trace 吗?如果我有很好的 metric,为什么还需要 trace?诸如此类的问题 阅读全文
posted @ 2024-04-26 11:56 SRETalk 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 背景 在微服务大行其道的今天,如何观测众多微服务、快速理清服务间的依赖、如何对服务之间的调用性能进行衡量,成了摆在大家面前的难题。对此,Skywalking应运而生,它是托管在 Apache 基金会下的开源项目,旨在帮助开发者监控分布式程序的性能、了解各个服务的调用关系和运行情况。 Skywalki 阅读全文
posted @ 2024-04-23 10:54 SRETalk 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 编者荐语: 本文是社区用户写的文章,通过 Categraf 的 SNMP 插件给网络监控提供了一个新的选择,转给大家参考。 大家好,我是小斐呀。 关于网络监控领域前面文章主要是基于 SNMP Exporter + Prometheus + Grafana 的架构中介绍如何使用和部署,往期文章。 接下 阅读全文
posted @ 2024-04-19 15:01 SRETalk 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件。是一个 Web Server,通过 HTTP 请求来操作机器,类似一个小木马。当然,因为是一个 Web Server,所以也提供了打印 HTTP 请求的能力,方便调试 Webhook 场景。下面给大家演示一下。 阅读全文
posted @ 2024-04-18 11:26 SRETalk 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 经过一个半月的打磨改进,夜莺监控 V7 第二个 beta 版本发布了,本次发布的主要亮点是内置集成故障自愈能力,简化架构,同时做了其他 19 项改进。一些重要的改进如下: feat: 集成故障自愈的能力,不需要再单独部署 ibex 模块了 refactor: 内置仪表盘和内置规则页面重构 refac 阅读全文
posted @ 2024-04-17 19:23 SRETalk 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 问题背景 访问某个 HTTP 域名接口,偶发性超时,原因可能多种多样,比如 DNS 解析问题、网络质量问题、对端服务负载问题等,在客户端没有良好埋点的情况下,排查起来比较费劲,只能挨个方向尝试,这里送大家一个小工具,可以快速采样 DNS 解析延迟,快速确认是否是 DNS 解析问题。 使用演示 运行工 阅读全文
posted @ 2024-04-12 16:48 SRETalk 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 稍微有点 Linux 经验的人一定会遇到过 “Too many open files” 错误,这个错误本质是 ulimit 设置不合理导致的。关于 ulimit 设置,有哪些需要注意的点呢?本文给大家做一个介绍,希望对大家有所帮助。 如何确认 ulimit 设置生效了? 很多人设置了 ulimit 阅读全文
posted @ 2024-04-03 15:21 SRETalk 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 指标、日志、链路是服务可观测性的三大支柱,在服务稳定性保障中,通常指标侧重于发现故障和问题,日志和链路分析侧重于定位和分析问题,其中日志实际上是串联这三大维度的一个良好桥梁。 但日志分析往往面临成本和效果之间的权衡问题,没有完美的方案只有适合的方案,本文将结合实战经验,介绍一种日志分析的实现,分析如 阅读全文
posted @ 2024-04-02 10:55 SRETalk 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 场景再现 你正在午休,正梦见中了彩票,突然收到电话告警,说服务对外接口 95 分位延迟突增,惊出一身冷汗,睡意全无,抓紧打开监控系统,查看服务的 SLI 指标,发现确实有问题,已经持续 1 分钟,这服务我刚接手没多久,怎么办?怎么办??对了,告警详情里有 SOP 预案手册,赶紧打开看看。 SOP 预 阅读全文
posted @ 2024-03-28 10:50 SRETalk 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 据说有些云厂商会超卖,宿主有 96 个核心,结果卖出去 100 多个 vCPU,如果这些虚机负载都不高,大家相安无事,如果这些虚机同时运行一些高负载的任务,相互之间就会抢占 CPU,对应用程序有较大影响,我应该如何查看我的 CPU 是否被抢占了呢? 什么是 cpu steal time? 如果你在物 阅读全文
posted @ 2024-03-26 19:43 SRETalk 阅读(18) 评论(0) 推荐(0) 编辑