上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页
摘要: 虽说监控系统最侧重的功能是指标采集、存储、分析、告警,为了能够快速恢复故障,告警自愈机制也是需要重点投入建设的,所有可以固化为脚本的应急预案都可以使用告警自愈机制来快速驱动。夜莺开源项目从 v7 版本开始内置了告警自愈模块,本文将详细介绍告警自愈的原理和实现。 夜莺项目介绍 夜莺监控是一款开源云原生 阅读全文
posted @ 2024-05-08 16:59 IT运维监控 阅读(600) 评论(0) 推荐(0)
摘要: Charity Majors 的这句话可能是对科技行业当前可观察性状态的最好总结——完全的、大规模的混乱。大家都很困惑。什么是 trace?什么是 span?一行日志就是一个 span 吗?如果我有日志,我还需要 trace 吗?如果我有很好的 metric,为什么还需要 trace?诸如此类的问题 阅读全文
posted @ 2024-04-26 11:56 IT运维监控 阅读(228) 评论(0) 推荐(0)
摘要: 背景 在微服务大行其道的今天,如何观测众多微服务、快速理清服务间的依赖、如何对服务之间的调用性能进行衡量,成了摆在大家面前的难题。对此,Skywalking应运而生,它是托管在 Apache 基金会下的开源项目,旨在帮助开发者监控分布式程序的性能、了解各个服务的调用关系和运行情况。 Skywalki 阅读全文
posted @ 2024-04-23 10:53 IT运维监控 阅读(248) 评论(0) 推荐(0)
摘要: 编者荐语: 本文是社区用户写的文章,通过 Categraf 的 SNMP 插件给网络监控提供了一个新的选择,转给大家参考。 大家好,我是小斐呀。 关于网络监控领域前面文章主要是基于 SNMP Exporter + Prometheus + Grafana 的架构中介绍如何使用和部署,往期文章。 接下 阅读全文
posted @ 2024-04-19 15:00 IT运维监控 阅读(874) 评论(0) 推荐(0)
摘要: 远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件。是一个 Web Server,通过 HTTP 请求来操作机器,类似一个小木马。当然,因为是一个 Web Server,所以也提供了打印 HTTP 请求的能力,方便调试 Webhook 场景。下面给大家演示一下。 阅读全文
posted @ 2024-04-18 11:26 IT运维监控 阅读(109) 评论(0) 推荐(0)
摘要: 经过一个半月的打磨改进,夜莺监控 V7 第二个 beta 版本发布了,本次发布的主要亮点是内置集成故障自愈能力,简化架构,同时做了其他 19 项改进。一些重要的改进如下: feat: 集成故障自愈的能力,不需要再单独部署 ibex 模块了 refactor: 内置仪表盘和内置规则页面重构 refac 阅读全文
posted @ 2024-04-17 19:23 IT运维监控 阅读(159) 评论(0) 推荐(0)
摘要: 问题背景 访问某个 HTTP 域名接口,偶发性超时,原因可能多种多样,比如 DNS 解析问题、网络质量问题、对端服务负载问题等,在客户端没有良好埋点的情况下,排查起来比较费劲,只能挨个方向尝试,这里送大家一个小工具,可以快速采样 DNS 解析延迟,快速确认是否是 DNS 解析问题。 使用演示 运行工 阅读全文
posted @ 2024-04-12 16:48 IT运维监控 阅读(202) 评论(0) 推荐(0)
摘要: 稍微有点 Linux 经验的人一定会遇到过 “Too many open files” 错误,这个错误本质是 ulimit 设置不合理导致的。关于 ulimit 设置,有哪些需要注意的点呢?本文给大家做一个介绍,希望对大家有所帮助。 如何确认 ulimit 设置生效了? 很多人设置了 ulimit 阅读全文
posted @ 2024-04-03 15:20 IT运维监控 阅读(356) 评论(0) 推荐(0)
摘要: 指标、日志、链路是服务可观测性的三大支柱,在服务稳定性保障中,通常指标侧重于发现故障和问题,日志和链路分析侧重于定位和分析问题,其中日志实际上是串联这三大维度的一个良好桥梁。 但日志分析往往面临成本和效果之间的权衡问题,没有完美的方案只有适合的方案,本文将结合实战经验,介绍一种日志分析的实现,分析如 阅读全文
posted @ 2024-04-02 10:54 IT运维监控 阅读(155) 评论(0) 推荐(0)
摘要: 场景再现 你正在午休,正梦见中了彩票,突然收到电话告警,说服务对外接口 95 分位延迟突增,惊出一身冷汗,睡意全无,抓紧打开监控系统,查看服务的 SLI 指标,发现确实有问题,已经持续 1 分钟,这服务我刚接手没多久,怎么办?怎么办??对了,告警详情里有 SOP 预案手册,赶紧打开看看。 SOP 预 阅读全文
posted @ 2024-03-28 10:49 IT运维监控 阅读(130) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页