Multi-Agent 运维架构设计：CI&T 如何用 Supervisor + 5 专项 Agent 重构全球 IoT 运维

背景

CI&T 为全球 IoT 企业构建了基于 AWS IoT Core 的多区域部署架构。随着规模扩大，传统运维面临三个瓶颈：跨区域数据分散、专家经验难以规模化、手动巡检滞后。

Supervisor Agent 作为调度中心，负责任务拆分、子 Agent 调度和结果汇总。五个领域 Agent 各负其责：

单 Agent vs 多 Agent 的选型依据：每个运维领域需要不同的领域知识和 API 调用模式。单 Agent 的 system prompt 无法承载全栈运维知识，且领域间可能互相干扰。多 Agent 方案的代价是调度复杂度增加，但 Supervisor 模式有效管控了这一点。

Agent 不直接调用 AWS CLI/API，而是通过标准化 Skill 执行任务。这一设计解决了三个问题：

这与 Kiro Skills、agentskills.io 标准的设计哲学一致——确定性操作封装为可复用模块。

定期触发(Supervisor) → 并行分析(5 Agents) → 智能汇总(统一报告)

核心价值：从"被动响应"转为"主动发现"。不是替代 Dashboard，而是补充了 Dashboard 缺乏的持续执行和跨领域关联分析能力。

开发验证在 OpenClaw 上完成后，生产环境部署到 Amazon Bedrock AgentCore：

适合：

不适合：

与 CloudWatch/DataDog 的关系：互补而非替代。监控工具提供数据采集和可视化，Agent 提供智能分析和主动发现。

参考资料

CI&T 智能运维最佳实践（官博）

Amazon Bedrock AgentCore

AWS IoT Core

posted @ 2026-04-22 09:05 亚马逊云开发者阅读(41) 评论(0) 收藏举报

刷新页面返回顶部