AWS DevOps Agent 深度解读:从 AI 自动排障到 SRE 工作流变革
前言
最近研究了一下亚马逊云科技新推的 DevOps Agent,写篇深度解读。这东西不是又一个 ChatOps 机器人——它的定位是自主 AI SRE Agent,能跨多云和本地环境做全链路排障。
看完产品文档和几个客户案例后,我觉得值得认真聊一聊。
定位:自主运维的 AI 队友
DevOps Agent 不是一个被动等你提问的 Q&A 工具。它的工作模式是:
- 告警驱动:ServiceNow ticket 创建、PagerDuty 告警触发、CloudWatch alarm 变化——任何一个事件都能自动启动排障
- 自主调查:连接你的观测工具、代码仓库、CI/CD pipeline,自动收集证据、形成假设、验证假设
- 输出行动方案:根因分析 + 具体修复步骤 + 验证方法 + 回滚方案
整个过程你可以在旁边看它的 journal(推理日志),也可以随时介入引导方向。
核心技术能力
Topology Skill:环境感知
这是 DevOps Agent 的底层能力——自动发现并理解你的应用拓扑。
它会扫描所有已连接的工具,构建一张动态更新的服务依赖图。不是简单的资源列表,而是理解"Service A 通过 API Gateway 暴露,依赖 Lambda B 和 DynamoDB Table C,Lambda B 又会调用 SNS Topic D 和 S3 Bucket E"这种级别的关系。
排障时,它根据这张图做关联分析——一个 API 超时的告警进来,它能自动沿着调用链逐层检查。
根因分析:多维度交叉排查
DevOps Agent 排查的维度包括:
- 系统变更:最近的代码部署、配置修改
- 输入异常:流量突增、请求内容异常
- 资源限制:DynamoDB WCU 打满、Lambda 并发到顶、API Gateway 限流
- 组件故障:冷启动延迟、服务宕机
- 依赖问题:下游服务响应慢、第三方 API 不稳定
官方文档列了一些典型场景的排查逻辑:
| 场景 | 根因 | Agent 建议 |
|---|---|---|
| DynamoDB 限流导致高延迟 | 新代码引入低效查询模式 | 回滚代码变更 |
| SNS 消息发布失败 | 消息大小超限 | 添加发布前消息体校验 |
| API 被限流 | Rate/Burst 超配额 | 提升限流配额 |
| Lambda 冷启动延迟 | 性能退化 | 增加预置并发 |
Learned Skills:越用越聪明
DevOps Agent 有学习机制——它会回顾过去的排障记录,抽取模式生成"learned investigation skills"。下次遇到类似问题,调查效率更高。
这意味着它不是一个静态规则引擎,而是会随着使用逐渐理解你团队的运维模式。
Prevention Recommendations:防再犯
每次排障后自动生成改进建议,覆盖四个维度:
-
可观测性改进
- 例:告警阈值从 "20 分钟内 15 次失败" 调整为 "5 分钟内 3 次"
- 例:为 IAM 角色变更添加 CloudWatch Metric Filter
-
基础设施优化
- 例:DynamoDB 表加 GSI 避免全表扫描(延迟从 2500-3500ms 降到 100ms 以下)
- 例:K8s 集群加 HPA 解决单 Pod 瓶颈
-
部署流程增强
- 例:ECS 部署启用自动回滚 + EventBridge 监控
- 例:部署前强制校验 Prometheus 连通性
-
应用韧性
- 例:识别测试覆盖空白,补上本该阻止问题进入生产的测试
所有建议都能生成 agent-ready specs,交给 Kiro Autonomous Agent 执行代码修改。
集成架构
内置集成
| 类型 | 支持的工具 |
|---|---|
| 观测 | Amazon CloudWatch, Dynatrace, Datadog, Grafana, New Relic, Splunk, Prometheus |
| 代码 & CI/CD | GitHub, GitLab, Azure DevOps |
| 工单 & 协作 | ServiceNow, PagerDuty, Slack |
| 支持 | AWS Support(一键创建 case 并附带完整排障上下文) |
MCP Server 扩展
这是最值得关注的扩展点。通过 MCP(Model Context Protocol)协议,你可以接入:
- 公司内部的自建监控系统
- 私有日志平台
- Confluence 内部文档
- 自建工单系统
- 任何有 API 的内部工具
这意味着 DevOps Agent 的能力边界不限于已内置的工具——你能通过 MCP 把它的"视野"扩展到公司的任何角落。
Agent Space:多租户隔离
Agent Space 是 DevOps Agent 的逻辑容器概念:
- 每个 Agent Space 定义独立的访问范围(IAM Role + 工具连接)
- 支持多账号环境
- 不同团队可以有独立的 Agent Space,互不干扰
- 可以理解为"这个 Agent 实例能看到什么、能操作什么"
客户实践数据
United Airlines
- 规模:500 AWS 账号,20,000 Lambda,38,000 Dynatrace OneAgent
- 痛点:多工具排障存在黑盒和盲区
- 效果:Dynatrace 检测问题 → DevOps Agent 深度排查 → 结论回写 Dynatrace,单一视图完成全流程
Western Governors University
- GA 之前就投入生产使用
- 一次 Lambda 配置导致的服务中断:MTTR 从约 2 小时降到 28 分钟(降 77%)
- Agent 翻出一份"之前没人发现的内部文档"直接定位根因
- 正在部署 Skills 功能进一步压缩调查时间
Zenchef
- 6 人 DevOps 团队管理多套生产环境
- hackathon 期间爆出 API 集成问题,无人手排查
- Agent 20-30 分钟完成调查(原来 1-2 小时),定位到新部署引入的 enum 处理 bug
- 无需打断工程师参加 hackathon
T-Mobile
- 首批设计合作伙伴
- 跨多云 + 本地 Splunk 部署
- 反馈直接影响了产品迭代方向
计费模型
- 按秒计费:$0.0083/agent-second
- 场景估算:10 次调查/月 × 每次 8 分钟 ≈ $39.84/月
- 免费试用:2 个月(Preview 用户也有资格)
- Support 积分抵扣:Business+ 30%、Enterprise 75%、Unified Operations 100%(按 Support 账单比例发放)
- 注意:Agent 触发的 CloudWatch Logs Insights 查询、trace 检索等费用照常计费
安全合规
- AES-256 加密 + 支持 Customer Managed Keys
- 数据存储在你创建 Agent Space 的区域
- 不使用客户数据训练模型
- 底层使用 Amazon Bedrock Foundation Model
- 所有操作记录在 CloudTrail
- 完整的推理 journal 可审计
与 CloudWatch Investigations 对比
| 维度 | CloudWatch Investigations | DevOps Agent |
|---|---|---|
| 范围 | 亚马逊云科技内部 | 亚马逊云科技 + 多云 + 本地 |
| 数据源 | CloudWatch 指标/日志/trace | 观测 + 代码 + 部署 + 协作工具 |
| 扩展性 | 有限 | MCP Server 自定义扩展 |
| 交互方式 | Console 内查询 | 独立 Web App + Slack 等 |
| 学习能力 | 无 | Learned Skills |
| 防再犯建议 | 无 | 四维度改进建议 |
| 费用 | 免费 | $0.0083/秒 |
总结
DevOps Agent 的核心价值可以用一句话概括:把散落在 N 个工具里的运维信息,在几分钟内拼成一条完整的因果链。
这件事以前依赖"经验丰富的 SRE",现在让 AI 做信息收集和关联分析,人做最终决策。如果 MCP 自定义扩展的生态能建起来——公司内部所有工具都能接入——那它会成为 SRE 团队的基础设施级工具。
值得一提的是 Kiro 联动:DevOps Agent 输出根因和修复方案 → 生成 agent-ready specs → Kiro 自动改代码并提 PR。这个 "排障→修复→验证" 的闭环如果跑通,意义很大。
参考资料:

浙公网安备 33010602011771号