Multi-Agent 运维架构设计:CI&T 如何用 Supervisor + 5 专项 Agent 重构全球 IoT 运维

背景

CI&T 为全球 IoT 企业构建了基于 AWS IoT Core 的多区域部署架构。随着规模扩大,传统运维面临三个瓶颈:跨区域数据分散、专家经验难以规模化、手动巡检滞后。

架构设计

Multi-Agent 层级

Supervisor Agent 作为调度中心,负责任务拆分、子 Agent 调度和结果汇总。五个领域 Agent 各负其责:

Agent 领域 核心能力
FinOps 成本 趋势分析、异常检测、优化建议
Platform Ops 平台 日志深挖、服务健康评估
Security Ops 安全 IAM 审计、凭证检查、风险识别
Connectivity Ops 网络 延迟监控、流量分析、SSL 证书
BizOps 业务 行为趋势、业务指标分析

单 Agent vs 多 Agent 的选型依据:每个运维领域需要不同的领域知识和 API 调用模式。单 Agent 的 system prompt 无法承载全栈运维知识,且领域间可能互相干扰。多 Agent 方案的代价是调度复杂度增加,但 Supervisor 模式有效管控了这一点。

Skills 层:能力标准化

Agent 不直接调用 AWS CLI/API,而是通过标准化 Skill 执行任务。这一设计解决了三个问题:

  1. 封装复杂逻辑:Cost Explorer + Pricing API 的多步调用封装为单个 Skill
  2. 解耦底层依赖:API 变更只影响 Skill,不影响 Agent 逻辑
  3. 能力沉淀:运维经验从人脑转化为系统资产

这与 Kiro Skills、agentskills.io 标准的设计哲学一致——确定性操作封装为可复用模块。

自动巡检体系

定期触发(Supervisor) → 并行分析(5 Agents) → 智能汇总(统一报告)

核心价值:从"被动响应"转为"主动发现"。不是替代 Dashboard,而是补充了 Dashboard 缺乏的持续执行和跨领域关联分析能力。

企业级部署:AgentCore

开发验证在 OpenClaw 上完成后,生产环境部署到 Amazon Bedrock AgentCore:

  • Serverless 按需付费:定时巡检"运行几分钟闲 23 小时"的模式,比常驻实例省成本
  • 安全隔离:每用户独立沙箱
  • 企业治理:预设规则防越权
  • 可观测性:内置监控

工程取舍

适合

  • 跨区域多服务运维
  • 需要多维度(成本+安全+性能)综合分析
  • 有定期巡检需求的团队

不适合

  • 运维范围单一(单服务单区域),单 Agent 即可
  • 需要实时响应(< 1 秒)的场景,Multi-Agent 调度有开销

与 CloudWatch/DataDog 的关系:互补而非替代。监控工具提供数据采集和可视化,Agent 提供智能分析和主动发现。


参考资料

posted @ 2026-04-22 09:05  亚马逊云开发者  阅读(6)  评论(0)    收藏  举报