Agent 故障复盘:三个真实案例分析

Agent 故障复盘:三个真实案例分析

原文:A postmortem of three recent issues | Anthropic Engineering Blog | 2025.9

导语

2025 年 8 月到 9 月初,三个基础设施漏洞同时导致 Claude 响应质量间歇性下降。用户报告模型"变笨了"、"输出出现奇怪的字符"、"回答质量不稳定"。

Anthropic 发布了这篇坦诚的事后分析,详细解释了三个问题的技术细节。这可能是 AI 行业公开的最详细的模型质量故障复盘。


一、Anthropic 的承诺

"我们绝不会因为需求、时间段或服务器负载而降低模型质量。"

用户报告的所有问题,纯粹是由基础设施漏洞引起的。


二、三个重叠的漏洞

事件时间线

漏洞 1:上下文窗口路由错误

发生时间: 8 月 5 日引入,8 月 29 日因负载平衡变更影响扩大

问题: 部分 Sonnet 4 请求被错误地路由到了配置用于即将推出的 1M token 上下文窗口的服务器。

影响范围: - Claude Code:约 30% 的用户至少有一条消息被路由错误 - Amazon Bedrock:错误路由流量峰值达 0.18% - Google Vertex AI:受影响请求少于 0.0004%

修复: 9 月 4 日部署路由逻辑修复。

漏洞 2:输出损坏

事件重叠分析

发生时间: 8 月 25 日部署,9 月 2 日回滚

问题: 运行时性能优化配置错误,导致 token 生成过程中偶尔高概率分配给本不该出现的 token。

症状: 在英文提示的回复中插入泰文或中文字符,代码中产生明显的语法错误。

影响: Opus 4.1、Opus 4 和 Sonnet 4。第三方平台未受影响。

漏洞 3:XLA:TPU 误编译

系统架构

发生时间: 8 月 25 日部署,9 月 4 日开始回滚

问题: 为改进 token 选择而部署的代码意外触发了 XLA:TPU 编译器中的一个潜在漏洞。涉及混合精度运算(bf16 与 fp32 不匹配)和近似 top-k 操作的缺陷。

影响: 确认影响 Claude Haiku 3.5,可能影响部分 Sonnet 4 和 Opus 3。


三、为何检测困难

错误率图表

评估盲区

现有基准测试未能捕捉到退化,因为 Claude 通常能从孤立错误中恢复。

隐私限制

内部隐私控制限制了工程师访问用户交互数据的能力,阻碍了问题识别。

症状混乱

每个漏洞在不同平台上产生不同症状,看起来像随机的不一致性。

噪音干扰

过于依赖嘈杂的评估数据,未能及时将用户报告与基础设施变更联系起来。


四、改进措施

  1. 更敏感的评估:开发能更可靠区分正常和异常的评估工具
  2. 全方位质量评估:在真实生产系统上持续运行评估
  3. 更快的调试工具:在不牺牲用户隐私的前提下更好地调试社区反馈

五、对 Agent 开发者的启示

1. 模型质量不是恒定的

你的 Agent 可能因为底层模型的基础设施问题而表现异常。建立自己的质量监控,不要完全依赖模型提供商。

2. 评估需要贴近真实场景

Anthropic 的标准基准测试没有发现这些问题。这意味着你的评估也可能有盲区。确保评估覆盖生产中的实际使用模式。

3. 错误会以意想不到的方式表现

泰文字符出现在英文回复中、TPU 编译器的精度问题导致模型"变笨"……这些都不是显而易见的故障,需要细致的监控和分析。

4. 多平台部署增加复杂性

同一个漏洞在 AWS Trainium、NVIDIA GPU 和 Google TPU 上的表现完全不同。如果你的 Agent 部署在多个平台,需要分平台监控。


读后感

这篇文章最打动我的是 Anthropic 的透明度

在 AI 行业,大多数公司对模型质量问题讳莫如深。Anthropic 不仅公开承认了问题,还详细解释了每个漏洞的技术细节——包括 XLA 编译器的底层 bug。

这种透明度本身就是一种信任构建。对于 Agent 开发者来说,这篇文章的价值不仅在于技术细节,更在于它提醒我们:即使是最好的模型提供商,也会犯基础设施级别的错误。你需要自己的防线。


本文是 Anthropic AI Agent 系列 第 15 篇(完结)。

回到导读:Anthropic AI Agent 系列导读

关注公众号 coft 获取更多技术文章。

posted @ 2026-02-20 09:03  warm3snow  阅读(6)  评论(0)    收藏  举报