Anthropic 实战总结：AI Agent 的 3 种工作流模式，选错代价很大

Anthropic 跟几十个构建 AI Agent 的团队合作后发现，生产环境中 90% 的场景只需要 3 种工作流模式。选错了，你要么浪费 Token，要么延迟爆炸，要么可靠性拉胯。

这篇文章来自 Anthropic 官方博客（2026 年 3 月 5 日），是他们从实战中提炼出来的模式指南。我把核心内容整理出来，加了些自己的理解。

本文提纲

Workflow vs 自主 Agent：不是替代关系
Sequential Workflow（串行工作流）
Parallel Workflow（并行工作流）
Evaluator-Optimizer Workflow（评估-优化循环）
怎么选？一张决策表
模式可以组合

Workflow vs 自主 Agent：不是替代关系

一个完全自主的 Agent 自己决定用哪些工具、按什么顺序执行、什么时候停止。灵活性拉满，但可控性几乎为零。

Workflow 做的事情是：给自主性画边界。它定义整体流程、设置检查点、给每个步骤的 Agent 划定操作范围——但每个步骤内部，Agent 仍然可以自由推理和使用工具。

打个比方：工厂流水线上的每个工位都有一个熟练工，他们在自己的工位上做决策（怎么装、怎么调），但整体流程是预先设计好的。Workflow 不是取代 Agent 的智能，而是给它一个结构化的舞台。

Sequential Workflow（串行工作流）

最简单的模式：Agent 们按预定顺序执行，前一个的输出是后一个的输入。

Agent A → Agent B → Agent C

什么时候用：任务天然可以拆成有依赖关系的阶段，每个阶段做不同的事情。

典型场景：
- 内容生产流水线：Agent A 调研 → Agent B 写初稿 → Agent C 编辑润色
- 数据处理管道：提取 → 清洗 → 分析 → 生成报告
- 客户支持分级：Agent A 分类问题 → Agent B 检索知识库 → Agent C 生成回复

什么时候别用：一个 Agent 就能搞定的事情，别硬拆成多步。如果任务本身没有天然的阶段划分，你只是在增加不必要的复杂度。

Pro Tip：先用单个 Agent 试试，把步骤写在 prompt 里。如果够用，就不需要拆。只有单个 Agent 搞不定时才拆成多步 Workflow。

Parallel Workflow（并行工作流）

多个 Agent 同时执行独立任务，最后汇总结果。本质就是分布式系统里经典的 fan-out/fan-in 模式。

         ┌→ Agent A →┐
Input ──→├→ Agent B →├──→ Aggregate → Output
         └→ Agent C →┘

什么时候用：
- 任务可以拆成互不依赖的子任务
- 延迟是瓶颈，需要并发加速
- 需要多个视角看同一个问题（比如多个 reviewer 从不同角度审代码）
- 不同工程师可以独立优化各自的 Agent

典型场景：
- 代码审查：安全 Agent、性能 Agent、风格 Agent 同时 review 一个 PR
- 多语言翻译：同时翻译成英、日、韩，最后汇入一个统一的术语表
- 市场分析：同时分析竞品、用户反馈、行业趋势，最后综合成一份报告

什么时候别用：
- Agent 之间需要累积上下文（后面的依赖前面的结果）
- 结果汇总比执行还复杂
- API 配额紧张，并发反而更慢

Pro Tip：在实现并行 Agent 之前，先设计好汇总策略。是多数投票？取置信度最高的？交给最专业的 Agent 裁决？没有汇总策略的并行就是给自己挖坑。

Evaluator-Optimizer Workflow（评估-优化循环）

两个 Agent 配对迭代：一个生成内容，另一个按标准评估，然后生成者根据反馈修改，循环直到达标或达到最大迭代次数。

Generator → Output → Evaluator → Feedback → Generator (refine) → ... → Final Output

核心洞察：生成和评估是不同的认知任务。分开之后，每个 Agent 可以专注于自己擅长的事情。

什么时候用：
- 有明确、可衡量的质量标准
- 第一次生成和最终结果之间差距显著
- 值得用额外的 Token 和延迟换质量提升

典型场景：
- 代码生成：生成代码 → 跑测试 → 根据失败用例修改 → 再测
- 文案写作：写初稿 → 按品牌调性评分 → 修改 → 再评
- 翻译润色：翻译 → 对照原文检查准确性 → 修正 → 再检查

什么时候别用：
- 第一次生成质量就够用了（别烧 Token）
- 需要实时响应的场景
- 评估标准太主观，AI Evaluator 无法一致地应用
- 有现成的确定性工具（比如代码格式用 linter 就行，不需要 AI 评估）

Pro Tip：设定明确的停止条件——最大迭代次数和具体的质量阈值。没有护栏的迭代循环 = 无底洞烧钱。

怎么选？一张决策表

你的问题	推荐模式
任务有明确的阶段依赖	Sequential
延迟是瓶颈，子任务互相独立	Parallel
质量要求高，第一次不够好	Evaluator-Optimizer
一个 Agent 就够	别用 Workflow
实时响应要求高	别用 Evaluator-Optimizer

核心原则：从最简单的模式开始。Sequential 是默认选择。只在有明确理由时才升级。

模式可以组合

这三种模式不是互斥的。可以嵌套：

Sequential 管道中，某个瓶颈阶段用 Parallel 加速
Sequential 的最后一步加上 Evaluator-Optimizer 保证输出质量
Parallel 的每个分支内部用 Sequential 拆分子任务

Anthropic 的建议是：先跑通最简单的版本，再根据实际问题逐步演进。别一开始就搞复杂架构。

作者: itech001
来源: 公众号：AI人工智能时代
主页: https://www.theaiera.cn，每日分享最前沿的AI新闻和技术。

本文首发于 AI人工智能时代，转载请注明出处。

posted @ 2026-04-21 00:27 iTech 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

iTech's Blog

AI人工智能时代 www.theaiera.cn

Anthropic 实战总结：AI Agent 的 3 种工作流模式，选错代价很大

Anthropic 实战总结：AI Agent 的 3 种工作流模式，选错代价很大

本文提纲

Workflow vs 自主 Agent：不是替代关系

Sequential Workflow（串行工作流）

Parallel Workflow（并行工作流）

Evaluator-Optimizer Workflow（评估-优化循环）

怎么选？一张决策表

模式可以组合

公告