Agent 故障复盘:三个真实案例分析
Agent 故障复盘:三个真实案例分析
原文:A postmortem of three recent issues | Anthropic Engineering Blog | 2025.9
导语
2025 年 8 月到 9 月初,三个基础设施漏洞同时导致 Claude 响应质量间歇性下降。用户报告模型"变笨了"、"输出出现奇怪的字符"、"回答质量不稳定"。
Anthropic 发布了这篇坦诚的事后分析,详细解释了三个问题的技术细节。这可能是 AI 行业公开的最详细的模型质量故障复盘。
一、Anthropic 的承诺
"我们绝不会因为需求、时间段或服务器负载而降低模型质量。"
用户报告的所有问题,纯粹是由基础设施漏洞引起的。
二、三个重叠的漏洞

漏洞 1:上下文窗口路由错误
发生时间: 8 月 5 日引入,8 月 29 日因负载平衡变更影响扩大
问题: 部分 Sonnet 4 请求被错误地路由到了配置用于即将推出的 1M token 上下文窗口的服务器。
影响范围: - Claude Code:约 30% 的用户至少有一条消息被路由错误 - Amazon Bedrock:错误路由流量峰值达 0.18% - Google Vertex AI:受影响请求少于 0.0004%
修复: 9 月 4 日部署路由逻辑修复。
漏洞 2:输出损坏

发生时间: 8 月 25 日部署,9 月 2 日回滚
问题: 运行时性能优化配置错误,导致 token 生成过程中偶尔高概率分配给本不该出现的 token。
症状: 在英文提示的回复中插入泰文或中文字符,代码中产生明显的语法错误。
影响: Opus 4.1、Opus 4 和 Sonnet 4。第三方平台未受影响。
漏洞 3:XLA:TPU 误编译

发生时间: 8 月 25 日部署,9 月 4 日开始回滚
问题: 为改进 token 选择而部署的代码意外触发了 XLA:TPU 编译器中的一个潜在漏洞。涉及混合精度运算(bf16 与 fp32 不匹配)和近似 top-k 操作的缺陷。
影响: 确认影响 Claude Haiku 3.5,可能影响部分 Sonnet 4 和 Opus 3。
三、为何检测困难

评估盲区
现有基准测试未能捕捉到退化,因为 Claude 通常能从孤立错误中恢复。
隐私限制
内部隐私控制限制了工程师访问用户交互数据的能力,阻碍了问题识别。
症状混乱
每个漏洞在不同平台上产生不同症状,看起来像随机的不一致性。
噪音干扰
过于依赖嘈杂的评估数据,未能及时将用户报告与基础设施变更联系起来。
四、改进措施
- 更敏感的评估:开发能更可靠区分正常和异常的评估工具
- 全方位质量评估:在真实生产系统上持续运行评估
- 更快的调试工具:在不牺牲用户隐私的前提下更好地调试社区反馈
五、对 Agent 开发者的启示
1. 模型质量不是恒定的
你的 Agent 可能因为底层模型的基础设施问题而表现异常。建立自己的质量监控,不要完全依赖模型提供商。
2. 评估需要贴近真实场景
Anthropic 的标准基准测试没有发现这些问题。这意味着你的评估也可能有盲区。确保评估覆盖生产中的实际使用模式。
3. 错误会以意想不到的方式表现
泰文字符出现在英文回复中、TPU 编译器的精度问题导致模型"变笨"……这些都不是显而易见的故障,需要细致的监控和分析。
4. 多平台部署增加复杂性
同一个漏洞在 AWS Trainium、NVIDIA GPU 和 Google TPU 上的表现完全不同。如果你的 Agent 部署在多个平台,需要分平台监控。
读后感
这篇文章最打动我的是 Anthropic 的透明度。
在 AI 行业,大多数公司对模型质量问题讳莫如深。Anthropic 不仅公开承认了问题,还详细解释了每个漏洞的技术细节——包括 XLA 编译器的底层 bug。
这种透明度本身就是一种信任构建。对于 Agent 开发者来说,这篇文章的价值不仅在于技术细节,更在于它提醒我们:即使是最好的模型提供商,也会犯基础设施级别的错误。你需要自己的防线。
本文是 Anthropic AI Agent 系列 第 15 篇(完结)。
关注公众号 coft 获取更多技术文章。

浙公网安备 33010602011771号