摘要: 随着 AI 技术、运维自动化能力的不断发展,基于智能体的运维能力作为一种高效、自主的新型运维工具,能够实现更智能的资源调度、自动化运维和精准的故障预测,从而降低运营成本并提高系统稳定性。 阅读全文
posted @ 2025-10-15 10:04 乘云数字Databuff 阅读(34) 评论(0) 推荐(0)
摘要: 在云原生与微服务高频发布的背景下,APM Java监控探针对服务的启动延迟已成为影响容器生命周期与部署效率的关键因素。本文通过对比主流 APM 方案的启动耗时数据,剖析不同探针的性能表现与技术差异,为容器化部署场景下的探针选型及 K8s 配置优化提供实践参考。 在微服务高频发布场景下,APM探针的启 阅读全文
posted @ 2025-09-17 09:57 乘云数字Databuff 阅读(7) 评论(0) 推荐(0)
摘要: 2025年7月23日,由中国通信标准化协会主办的 “2025可信云大会” 在京举行,《运维智能体(SRE AGENT)能力要求》标准正式发布,杭州乘云数字作为运维智能体及可观测领域领导者,重点参与了本次报告的编写。 阅读全文
posted @ 2025-07-23 15:24 乘云数字Databuff 阅读(64) 评论(0) 推荐(0)
摘要: 在可观测性领域,Dynatrace可以说是公认的老牌王者,而Databuff是这一领域的后起新秀,二者都具备较强的故障定位能力。 今天我们将进行一场测试,验证二者在故障定位能力上的差异。到底谁更胜一筹?请看下文。 1 测试环境介绍 测试系统EasyShopping,是一个包含17个业务服务的复杂微服 阅读全文
posted @ 2025-07-02 09:30 乘云数字Databuff 阅读(16) 评论(0) 推荐(0)
摘要: 上一期,我们分享了Web应用接口级的故障定位方法,通过细化到接口级的定位方法,可以精准地过滤掉干扰因素。然而这种方法并不适用所有场景,过于细致的过滤有时会产生新的问题。 本文将以共享连接池故障场景为例进行说明,提出一种利用服务&接口双粒度动态拓扑进行故障定位的方法。 阅读全文
posted @ 2025-05-09 09:55 乘云数字Databuff 阅读(10) 评论(0) 推荐(0)
摘要: 当生产环境中的容器CPU出现异常时,可能会引发上层业务出现一系列问题,比如业务请求缓慢、网页卡顿甚至崩溃等,如果没有一个有效的故障定位方法,运维人员很难从海量的告警信息中快速找到根本原因并解决问题。 阅读全文
posted @ 2025-05-09 09:52 乘云数字Databuff 阅读(6) 评论(0) 推荐(0)