Anthropic 实战总结:AI Agent 的 3 种工作流模式,选错代价很大
Anthropic 实战总结:AI Agent 的 3 种工作流模式,选错代价很大
Anthropic 跟几十个构建 AI Agent 的团队合作后发现,生产环境中 90% 的场景只需要 3 种工作流模式。选错了,你要么浪费 Token,要么延迟爆炸,要么可靠性拉胯。
这篇文章来自 Anthropic 官方博客(2026 年 3 月 5 日),是他们从实战中提炼出来的模式指南。我把核心内容整理出来,加了些自己的理解。
本文提纲
- Workflow vs 自主 Agent:不是替代关系
- Sequential Workflow(串行工作流)
- Parallel Workflow(并行工作流)
- Evaluator-Optimizer Workflow(评估-优化循环)
- 怎么选?一张决策表
- 模式可以组合
Workflow vs 自主 Agent:不是替代关系
一个完全自主的 Agent 自己决定用哪些工具、按什么顺序执行、什么时候停止。灵活性拉满,但可控性几乎为零。
Workflow 做的事情是:给自主性画边界。它定义整体流程、设置检查点、给每个步骤的 Agent 划定操作范围——但每个步骤内部,Agent 仍然可以自由推理和使用工具。
打个比方:工厂流水线上的每个工位都有一个熟练工,他们在自己的工位上做决策(怎么装、怎么调),但整体流程是预先设计好的。Workflow 不是取代 Agent 的智能,而是给它一个结构化的舞台。
Sequential Workflow(串行工作流)
最简单的模式:Agent 们按预定顺序执行,前一个的输出是后一个的输入。
Agent A → Agent B → Agent C
什么时候用:任务天然可以拆成有依赖关系的阶段,每个阶段做不同的事情。
典型场景:
- 内容生产流水线:Agent A 调研 → Agent B 写初稿 → Agent C 编辑润色
- 数据处理管道:提取 → 清洗 → 分析 → 生成报告
- 客户支持分级:Agent A 分类问题 → Agent B 检索知识库 → Agent C 生成回复
什么时候别用:一个 Agent 就能搞定的事情,别硬拆成多步。如果任务本身没有天然的阶段划分,你只是在增加不必要的复杂度。
Pro Tip:先用单个 Agent 试试,把步骤写在 prompt 里。如果够用,就不需要拆。只有单个 Agent 搞不定时才拆成多步 Workflow。
Parallel Workflow(并行工作流)
多个 Agent 同时执行独立任务,最后汇总结果。本质就是分布式系统里经典的 fan-out/fan-in 模式。
┌→ Agent A →┐
Input ──→├→ Agent B →├──→ Aggregate → Output
└→ Agent C →┘
什么时候用:
- 任务可以拆成互不依赖的子任务
- 延迟是瓶颈,需要并发加速
- 需要多个视角看同一个问题(比如多个 reviewer 从不同角度审代码)
- 不同工程师可以独立优化各自的 Agent
典型场景:
- 代码审查:安全 Agent、性能 Agent、风格 Agent 同时 review 一个 PR
- 多语言翻译:同时翻译成英、日、韩,最后汇入一个统一的术语表
- 市场分析:同时分析竞品、用户反馈、行业趋势,最后综合成一份报告
什么时候别用:
- Agent 之间需要累积上下文(后面的依赖前面的结果)
- 结果汇总比执行还复杂
- API 配额紧张,并发反而更慢
Pro Tip:在实现并行 Agent 之前,先设计好汇总策略。是多数投票?取置信度最高的?交给最专业的 Agent 裁决?没有汇总策略的并行就是给自己挖坑。
Evaluator-Optimizer Workflow(评估-优化循环)
两个 Agent 配对迭代:一个生成内容,另一个按标准评估,然后生成者根据反馈修改,循环直到达标或达到最大迭代次数。
Generator → Output → Evaluator → Feedback → Generator (refine) → ... → Final Output
核心洞察:生成和评估是不同的认知任务。分开之后,每个 Agent 可以专注于自己擅长的事情。
什么时候用:
- 有明确、可衡量的质量标准
- 第一次生成和最终结果之间差距显著
- 值得用额外的 Token 和延迟换质量提升
典型场景:
- 代码生成:生成代码 → 跑测试 → 根据失败用例修改 → 再测
- 文案写作:写初稿 → 按品牌调性评分 → 修改 → 再评
- 翻译润色:翻译 → 对照原文检查准确性 → 修正 → 再检查
什么时候别用:
- 第一次生成质量就够用了(别烧 Token)
- 需要实时响应的场景
- 评估标准太主观,AI Evaluator 无法一致地应用
- 有现成的确定性工具(比如代码格式用 linter 就行,不需要 AI 评估)
Pro Tip:设定明确的停止条件——最大迭代次数和具体的质量阈值。没有护栏的迭代循环 = 无底洞烧钱。
怎么选?一张决策表
| 你的问题 | 推荐模式 |
|---|---|
| 任务有明确的阶段依赖 | Sequential |
| 延迟是瓶颈,子任务互相独立 | Parallel |
| 质量要求高,第一次不够好 | Evaluator-Optimizer |
| 一个 Agent 就够 | 别用 Workflow |
| 实时响应要求高 | 别用 Evaluator-Optimizer |
核心原则:从最简单的模式开始。Sequential 是默认选择。只在有明确理由时才升级。
模式可以组合
这三种模式不是互斥的。可以嵌套:
- Sequential 管道中,某个瓶颈阶段用 Parallel 加速
- Sequential 的最后一步加上 Evaluator-Optimizer 保证输出质量
- Parallel 的每个分支内部用 Sequential 拆分子任务
Anthropic 的建议是:先跑通最简单的版本,再根据实际问题逐步演进。别一开始就搞复杂架构。
作者: itech001
来源: 公众号:AI人工智能时代
主页: https://www.theaiera.cn,每日分享最前沿的AI新闻和技术。
本文首发于 AI人工智能时代,转载请注明出处。

浙公网安备 33010602011771号