Agent 故障复盘：三个真实案例分析

原文：A postmortem of three recent issues | Anthropic Engineering Blog | 2025.9

导语

2025 年 8 月到 9 月初，三个基础设施漏洞同时导致 Claude 响应质量间歇性下降。用户报告模型"变笨了"、"输出出现奇怪的字符"、"回答质量不稳定"。

Anthropic 发布了这篇坦诚的事后分析，详细解释了三个问题的技术细节。这可能是 AI 行业公开的最详细的模型质量故障复盘。

一、Anthropic 的承诺

"我们绝不会因为需求、时间段或服务器负载而降低模型质量。"

用户报告的所有问题，纯粹是由基础设施漏洞引起的。

二、三个重叠的漏洞

事件时间线

漏洞 1：上下文窗口路由错误

发生时间： 8 月 5 日引入，8 月 29 日因负载平衡变更影响扩大

问题： 部分 Sonnet 4 请求被错误地路由到了配置用于即将推出的 1M token 上下文窗口的服务器。

影响范围： - Claude Code：约 30% 的用户至少有一条消息被路由错误 - Amazon Bedrock：错误路由流量峰值达 0.18% - Google Vertex AI：受影响请求少于 0.0004%

修复： 9 月 4 日部署路由逻辑修复。

漏洞 2：输出损坏

事件重叠分析

发生时间： 8 月 25 日部署，9 月 2 日回滚

问题： 运行时性能优化配置错误，导致 token 生成过程中偶尔高概率分配给本不该出现的 token。

症状： 在英文提示的回复中插入泰文或中文字符，代码中产生明显的语法错误。

影响： Opus 4.1、Opus 4 和 Sonnet 4。第三方平台未受影响。

漏洞 3：XLA:TPU 误编译

系统架构

发生时间： 8 月 25 日部署，9 月 4 日开始回滚

问题： 为改进 token 选择而部署的代码意外触发了 XLA:TPU 编译器中的一个潜在漏洞。涉及混合精度运算（bf16 与 fp32 不匹配）和近似 top-k 操作的缺陷。

影响： 确认影响 Claude Haiku 3.5，可能影响部分 Sonnet 4 和 Opus 3。

三、为何检测困难

错误率图表

评估盲区

现有基准测试未能捕捉到退化，因为 Claude 通常能从孤立错误中恢复。

隐私限制

内部隐私控制限制了工程师访问用户交互数据的能力，阻碍了问题识别。

症状混乱

每个漏洞在不同平台上产生不同症状，看起来像随机的不一致性。

噪音干扰

过于依赖嘈杂的评估数据，未能及时将用户报告与基础设施变更联系起来。

四、改进措施

更敏感的评估：开发能更可靠区分正常和异常的评估工具
全方位质量评估：在真实生产系统上持续运行评估
更快的调试工具：在不牺牲用户隐私的前提下更好地调试社区反馈

五、对 Agent 开发者的启示

1. 模型质量不是恒定的

你的 Agent 可能因为底层模型的基础设施问题而表现异常。建立自己的质量监控，不要完全依赖模型提供商。

2. 评估需要贴近真实场景

Anthropic 的标准基准测试没有发现这些问题。这意味着你的评估也可能有盲区。确保评估覆盖生产中的实际使用模式。

3. 错误会以意想不到的方式表现

泰文字符出现在英文回复中、TPU 编译器的精度问题导致模型"变笨"……这些都不是显而易见的故障，需要细致的监控和分析。

4. 多平台部署增加复杂性

同一个漏洞在 AWS Trainium、NVIDIA GPU 和 Google TPU 上的表现完全不同。如果你的 Agent 部署在多个平台，需要分平台监控。

读后感

这篇文章最打动我的是 Anthropic 的透明度。

在 AI 行业，大多数公司对模型质量问题讳莫如深。Anthropic 不仅公开承认了问题，还详细解释了每个漏洞的技术细节——包括 XLA 编译器的底层 bug。

这种透明度本身就是一种信任构建。对于 Agent 开发者来说，这篇文章的价值不仅在于技术细节，更在于它提醒我们：即使是最好的模型提供商，也会犯基础设施级别的错误。你需要自己的防线。

本文是 Anthropic AI Agent 系列 第 15 篇（完结）。

回到导读：Anthropic AI Agent 系列导读

关注公众号 coft 获取更多技术文章。

posted @ 2026-02-20 09:03 warm3snow 阅读(6) 评论(0) 收藏举报

刷新页面返回顶部

warm3snow

Agent 故障复盘：三个真实案例分析

Agent 故障复盘：三个真实案例分析

导语

一、Anthropic 的承诺

二、三个重叠的漏洞

漏洞 1：上下文窗口路由错误

漏洞 2：输出损坏

漏洞 3：XLA:TPU 误编译

三、为何检测困难

评估盲区

隐私限制

症状混乱

噪音干扰

四、改进措施

五、对 Agent 开发者的启示

1. 模型质量不是恒定的

2. 评估需要贴近真实场景

3. 错误会以意想不到的方式表现

4. 多平台部署增加复杂性

读后感

转载声明

公告