[AI翻译] 标题:Agentic AI 手册:生产级模式

来源链接: https://www.nibzard.com/agentic-handbook

发布时间: 2026-01-15T00:00:00.000Z

Agentic AI 手册:生产级模式

作者:Nikola Balić

TL;DR >> 汇集了 113 个真实生产系统提炼的模式。从“先规划后执行”到“群体迁移”,学习 AI 智能体落地实践中真正有效的模式。<<

主题:

AI智能体工程模式生产

2025年圣诞假期期间,一场静悄悄的革命出乎所有人意料。在人们应当与家人团聚、交换礼物的时候,变革展现在了真实数据中。

# 改变一切的圣诞节

“Awesome Agentic Patterns” 的 GitHub 仓库 自发布以来稳步增长。但到圣诞节期间,增长曲线直线上升。短短几天,仓库从默默无闻跃升到近 2,500 颗星。网站 的流量也同步激增。某些东西被真正点燃了。

但真正的故事并不在于这些数据,而在于谈论 AI 智能体的人是谁。

传奇人物出场

Linus Torvalds(Linux 与 Git 创始人)公开谈论用 AI 编程智能体来“感受式编程”及设计吉他踏板效果。仔细想想,这位发明现代软件开发版本控制系统的人,公开拥抱了智能体。

Shopify CEO Tobias Lütke,正在深入推进智能体辅助开发,他称这是“最为高效的时刻”。这可是掌控全球最大电商平台之一的 CEO。

更有代表性的是 Flask 作者 Armin Ronacher——Python 领域最受尊敬的声音之一。他起初对智能体持怀疑态度,公开表达过顾虑。但几乎是一夜之间,他的立场转变,开始推广智能体辅助的工作流,记录经验,承认技术已跨过门槛。

真正的瓶颈:时间

这些案例有共通点:假期给了人们平时难得的专注时间。

高效使用 AI 智能体不是会议间隙五分钟可以学会的,而需求:

  • 探索时间:试验智能体能做什么/不能做什么
  • 失败周期:看到智能体走错路并理解原因
  • 模式识别:培养哪些问题适合用智能体的直觉
  • 工作流重构:重新思考你的开发过程
  • 工具构建:开发让智能体高效的支撑工具

平时,诸如交付期限、会议、上线压力占据了这些时间。假期则暂停了会议、降低了紧迫性,让开发者真正有带宽去“学习”。

本仓库收集的 113 个真实生产系统中的模式,成为加速学习的课程表。每个模式都是久经战斗的方案——在真实复杂生产环境里有效,而不是演示环境。

“Ralph Wiggum” 情结

假期内爆发了另一个现象——“Ralph Wiggum 编码循环”,得名于《辛普森一家》中那个虽然努力却总是错失语境的小孩。正如 ghuntley 所描述的——智能体看似很有成效地工作,实际却逐步偏离正轨,因为它缺少了人类直觉中的深层上下文。

假期高峰期代表着大家集体摸索如何打破这个循环。本手册中的许多模式——尤其是人类参与协作、监控与控制转移——正是开发者实践出的解决方案。(避免 Ralph Wiggum 陷阱可见 ghuntley 指南

为什么这个时刻重要

2025年圣诞节的激增,不仅因为更多人尝试智能体,更是因为一部分开发者达到了对“生产模式”层面的理解。他们已经跨过了:

  • “哇,能自动写代码!”
  • “好酷,但偶尔会出错……”
  • “怎么落地做一个能用的?”

进阶到:

  • “这些是经过生产验证的模式”
  • “这样才能把智能体集成进真实工作流”
  • “这样才能让智能体可靠,而不只是炫技”

本手册正是对这 113 个模式的提炼总结——为那些假期探险家绘制的地图。不论你刚入门,还是希望深化理解,这些模式都是生产智能体团队的集体智慧结晶。


# 什么是 Agentic 模式?

Agentic 模式是指帮助自主或半自主 AI 智能体在生产环境下完成有用工作的可复用解决方法、工作流与“迷你架构”。

这个定义值得细细拆解。

他们填补的空白

如果你用过 AI 智能体,一定感受到过“演示到生产”的巨大鸿沟:

  • 教程只给单次(happy path)成功案例:“智能体写一个 REST API”
  • 演示突出最佳情况:人为输入、理想路径、完美输出
  • 真实产品则隐藏了让智能体真正落地的各种细节

鸿沟不容忽视,一个能在演示搞定的智能体,在生产环境却可能惨败,原因包括:

  • 边界条件在规模化下频现
  • 上下文(context window)溢出
  • 安全约束问题
  • 需要与人类工作流集成
  • 可靠性需求需额外保障

Agentic 模式是跨越这道鸿沟的桥梁。每种模式都是多团队实践并验证过的。它们不是理论,而是在真实生产中生发的经验。

三大标准

本手册里每个模式都满足下列三大标准:

  1. 可复用——有不止一支团队在实践
  2. 智能体核心性——直接提升智能体感知、推理、行动的能力
  3. 可追溯——有公开来源佐证(博客、讲座、论文、仓库等)

这不是一些“巧妙提示语”或“优化小技巧”合集,而是真正让 AI 智能体在现实中可用的架构级模式。

为什么模式重要

软件行业很早就证明了“模式”的价值。设计模式让大家拥有通用词汇——快捷表达复杂架构方案。用“工厂模式”替换“让我描述对象之间的组装流程”。

Agentic 模式作用类似:

  • 共享词汇:“我们用了先规划后执行”即代表一整套架构思路
  • 积累经验:吸取他人的成功或失败
  • 避免重复造轮子:复用已被验证的解决方案
  • 讨论和完善:模式有助于设计辩论与演化

截至2026年初,本仓库包含113 个模式,分为8 大类。下面逐一拆解。


# 八大 Agentic 模式分类

这些模式自然而然聚为八个类别,覆盖生产型智能体建设的不同侧面:

1. 编排与控制

智能体的大脑。 智能体如何决策该做什么、先做什么、何时收尾?

这是最大且最基础的一类,核心挑战是协调。智能体需要规划、执行、调整,还要知道何时请求人类介入。

核心模式包括:

2. 工具与环境

智能体的手。 智能体如何与外部系统——API、数据库、文件系统、浏览器——交互?

构建智能体既是建模,也是设计工具。工具设计差=废体一只,设计优良则能力突飞猛进。

核心模式包括:

3. 上下文与记忆

智能体的意识。 智能体如何在有限上下文窗口中持续积累知识?

上下文是智能体系统最稀缺的资源。下述模式着眼于上下文取舍、精细管理、长期记忆。

核心模式包括:

4. 反馈回路

智能体的成长机制。 智能体如何通过迭代和评估不断改进输出?

一流智能体不会首次就完美——核心在于循环反思、优化。以下模式即为此而设计。

核心模式包括:

5. 体验与协作

人类与智能体的伙伴关系。 如何让人机协作高效?

一流智能体是放大器而非人类替代品。相关模式专注于协作、控制转移、可见性设计。

核心模式包括:

6. 可靠性与评测

智能体的质保。 如何判断智能体是否正常工作?

智能体的测试与传统软件迥异。相关模式关注评估、复现性与可观测性。

核心模式包括:

7. 学习与适应

智能体的进化。 智能体如何随着时间推移持续提升?

最小却也许最关键的一类。让智能体得以复利式提升的关键模式。

核心模式包括:

8. 安全与保障

智能体的安全防线。 如何防止智能体带来伤害?

虽分类不大,却极为关键。智能体能力越强,安全风险越高。

核心模式包括:


# 每位开发者都应了解的基础模式

113 个模式中,初学者该从哪入手?以下四大模式是地基——简单、适用广、能解决智能体开发早期的常见难题。

先规划后执行(Plan-Then-Execute)模式

问题: 若智能体的工具输出能影响后续动作的种类,恶意指令可能引导智能体作出危险行为。这其实是一种工具级的提示注入问题。

解决方案: 将推理明确分为两个阶段:

  1. 规划阶段 – LLM 在未见不可信数据前输出_固定_的工具调用顺序
  2. 执行阶段 – 控制器只按该顺序运行工具。工具输出可作为参数,但不可改变_调用哪些工具_

该模式已在 Claude Code “plan mode” 实现,并被验证能让复杂任务的成功率提高 2-3 倍,因为先对方案达成一致再执行。

何时用: 适用于操作集已定但参数不同的任务,如邮件/日历机器人、SQL 助手、代码评审智能体。

关键见解: 随着模型能力增强(Sonnet 4.5 VS Opus 4.1),哪些需要“规划”会动态变化。简单问题一击完成,复杂任务留给规划机制。

控制反转(Inversion of Control)

问题: 传统的“提示如操偶师”让人类把步骤都讲清楚,导致智能体没法真正大展拳脚,你反而成了瓶颈。

解决方案: 给智能体工具+高层目标,交由它自行编排。人类只做两头把控(前10%+后3%),中间87%交给智能体。

示例: 不再像这样:

"读取文件,提取 UploadService 类,检测是否有异步方法,如果没有则添加,再更新测试以适配异步……"

而是这样:

"重构 UploadService 以适配异步模式。我已为你提供了读文件、运行测试和编辑的工具。准备好 PR 请通知我。"

何时用: 几乎一切生产智能体场景。管得越细,智能体越难用。正确做法:定义“做什么”交由人,具体“怎么做”留给智能体。

关键见解: 本模式来自“依赖注入”理念的反向应用。不是框架决定流转,而是智能体自主控制,但在你定义的边界内。

反思循环(Reflection Loop)

问题: 生成模型若不自评与反思,产出质量低下。一锤定音容易错失优化机会。

解决方案: 生成初稿后,让模型用给定标准自评,并根据反馈自我完善:

for attempt in range(max_iters):
    draft = generate(prompt)
    score, critique = evaluate(draft, metric)
    if score >= threshold:
        return draft
    prompt = incorporate(critique, prompt)

何时用: 所有对输出质量有要求的场景——写作、推理或代码开发。循环直到达标或次数上限。

关键见解: 很多“魔法”智能体能力正源于此。平庸输出与优质成果的差别常常只是 2-3 轮反思。该模式已在多处验证有效,值得信赖。

思路链监控与中断(Chain-of-Thought Monitoring & Interruption)

问题: 智能体可能长时间走上错误推理路径,最终输出出现后才被发现,已浪费大量时间与算力。

解决方案: 主动实时监控推理过程,能及时中断并引导其纠偏。实时监控思路链、工具调用和中间结果。

Vulcan 的 Tanner Jones 建议:“保持手指放在‘中断’扳机上,随时终止错误行为。”

何时用: 复杂重构、代码深度理解、高风险操作(数据库迁移、API 修改),或当任务需求模糊时。

关键见解: 智能体第一次调用工具常能判断其理解是否正确,务必监控首次决策——如有误,立刻中断。别等到所有错误链条都跑完才纠正。


# 多智能体系统架构

单智能体有极限:卡在局部最优,难以并行或处理多领域问题。多智能体可通过专业化与协作突破局限。

为什么选择多智能体?

单智能体→多智能体有自然进阶:

  • 单智能体: 擅长直线、串行、简单任务
  • 多智能体: 面对复杂、可并行、多领域问题必不可少

关键见解:专业化>泛用性。 针对代码审查优化的智能体,胜过什么都做的泛智能体。一群分工明确、协同有序的专家体能超越单一体。

群体迁移模式

问题: 大规模代码迁移(如框架升级、lint 规则统一、API 替换)若按部就班效率极低。

解决方案: 采用群体架构——主智能体协调 10+ 并行子智能体协作,分别处理独立子任务:

  1. 主体制定迁移方案(列出所有需更改文件)
  2. 拆解任务,生成可并行处理的清单
  3. 启动子体群(10+ 并行,每个处理若干项)
  4. map-reduce 执行(各子体独立处理分块)
  5. 主体统一检查和整合结果

真实案例(Anthropic 内部): 用户每月在迁移上投入超 $1,000。常用模式:“主体先做清单,然后 map-reduce 式分发 10 个子体,全部文件并行过一遍。”

效果: 比串行快 10 倍以上,原本需数周的迁移工时缩短到几小时。

关键见解: 前提是任务可以原子化——每份子任务互不影响。规范、测试完善是基础。

语言智能体树搜索(LATS)

问题: 单体应对复杂推理(需探索多种解法)的任务时易卡壳,直线思考容易陷入局部最优或遗漏方案。

解决方案: 用蒙特卡洛树搜索(MCTS)结合自省机制:

  • 节点=状态(中间解或步骤)
  • 边=动作(下一步推理)
  • 叶节点由 LLM 自评
  • 回传机制反哺全树价值

智能体可在 promising 路径深挖,同时保证广度,防止陷入死胡同。

效果: 在复杂推理任务上优于 ReACT、Reflexion 和 思维树

适用场景: 战略规划、数学推理、多步决策(首步影响后续较大)。

关键见解: 计算量大,但能解决真正难题。简单任务用它得不偿失。

预言机/工人模式(Oracle/Worker Pattern)

问题: 不同模型有不同成本与能力,全部用最高端模型极其昂贵。

解决方案: “贵”模型当预言机,“便宜”模型当工人:

  • 预言机: 高级(如 Opus)做规划、评审、纠错
  • 工人: 小模型(如 Haiku)执行实际任务

权衡: 既享受最强智能,又大幅节省成本——大部分工作并行交给小模型。但协调难度增加,任务拆分需扎实支撑。

关键见解: 这种分工结构已被大规模生产验证,是企业高效落地智能体的主流路线。

从单体到多体,是自然演化。专业化的智能体总能超过泛用型。


# 人-智能体协作光谱

别被“全自治智能体”炒作误导,最成功的系统本质是协作型。最佳模式能扩大人类能力,而非取代。

协调优先,不是替代

思路决定结果。如果你只想着让智能体取代人类,往往越用越气;若专注于如何让人机合作,则收获的是杠杆与增益。

促进有效协作的关键模式:

控制光谱/协同发起

问题: 把人机交互设定为二元(要么人控制,要么体控制)就错失了高效协作必需的细微调控。

解决方案: 设计可流转、可逆、可控的柔性控制:

  • 人主导: 人发号施令,智能体执行(如“帮我重构这个函数”)
  • 体主导: 智能体建议,人批准(如“我发现10个潜在 bug,请审查”)
  • 混合: 按信心与语境可来回切换

实践建议: 智能体应明确标记信心、越界时主动提示。人类要有一扣切回/干预的机制。

关键见解: 最高效的状态不是完全自动,也不是全人工,而是信心、能力、情境驱动下的动态流转。

思路链监控

作为基础模式已讲过,此处再专门说明。可见性即控制权。

你能实时看到智能体的推理过程:

  • 能更早发现错误假设
  • 明白其决策缘由
  • 及时纠偏,防止浪费
  • 透明度增强信任

“手指放在扳机上”是字面意义——不是被动围观,而是随时准备干涉。

抽象代码表示用于评审

问题: 传统代码评审只看行级 diff,难以看清全局。智能体生成的改动往往涉及多文件,按行死抠效果更差。

解决方案: 输出更高层次的评审摘要:

  • 伪代码改动概括
  • 改动意图说明(“重构 X 以支持 Y”)
  • 架构理由(“分层重组隔离关注点”)
  • 行为前后对比描述

效果: 评审效率大幅提升,聚焦判断“是否正确”,而非一行行死抠。

关键见解: 智能体非常擅长总结自身成果。善用这一点,才能让“人审智能体代码”成为现实可规模化的流程。


# 智能体时代的安全模式

随着智能体能力提升,安全显得越来越重要。致命三重威胁模型就是智能体安全的理论基石。

致命三重威胁

问题: 三种能力叠加后,提示注入攻击变得轻而易举:

  1. 有权读取私密数据(如密钥、用户数据、内部系统)
  2. 暴露于不可信内容(用户输入、网页、邮件等)
  3. 具备外部通信能力(API 调用、webhook、消息发送)

三者重合,攻击者轻松注入指令让智能体泄密。LLM 在同一上下文里无法可靠区分“好/坏”指令。

解决方案: 保证任意时刻至少缺其中之一:

  • 移除外部网络端口(不能外发泄密)
  • 禁止直接读文件/数据库(拿不到敏感资料)
  • 严格隔离不可信输入(消除恶意指令)

实践: 用能力矩阵在调度层做隔离,而非靠易受攻的提示防线。

状态: 最佳实践,生产环境智能体强制贯彻此安全思路。

隔离原则(Compartmentalization)

原则: 工具设计上推行“最小权限”。只允许智能体访问当前任务所需工具。

实践方案:

  • 按类型分配工具,定制权限集
  • 权限隔离(只读/可写等)
  • 环境沙箱(运行隔离)
  • 全程工具访问审计日志

关键见解: 隔离比事后监控更安全。如果根本无法访问敏感数据,提注也偷不到。

PII 数据标记

问题: 智能体需处理敏感数据,如果原文出现在 prompt 会带来隐私和合规风险。

解决方案: 用 MCP 方案提前将敏感数据替换为 token:

原文: "向 john@example.com 发送邮件"
标记后: "向 [EMAIL_TOKEN_123] 发送邮件"

智能体只接 token。实际执行时由后台系统还原。

优点:

  • 智能体推理无损
  • PII 永不进上下文
  • 合规场景友好
  • 执行时可逆还原

关键见解: 隐私无需剥夺任务,只需数据表征设计得当。

2025 圣诞高峰不只是更多人试用智能体,更关键是有一批开发者到达了“生产模式”认知的新台阶。


# 他人用失败学会的生产模式

有些模式只有在你真正把智能体上线并经历失败以后才会总结出来,这是老兵用惨痛经验换来的真知。

上下文窗口焦虑

现象发现: 如 Claude Sonnet 4.5 之类模型存在“上下文焦虑”--感知token接近上限时,会主动总结/提前收尾,即使其实还有空间。

典型症状:

  • 中途突然总结收尾
  • 决策草率赶进度
  • 明示“空间不足”
  • 工作不完整但上下文远未满

解决方法:

  1. 启用大上下文窗口(如 1M token),实际只用 20 万——可带来心理“跑道”
  2. 反向安抚提示:“你有足够上下文,不要着急”
  3. 明确告知 token 预算,让模型心里有数

来源: Cognition AI 用 Claude Sonnet 4.5 做 Devin 智能体的真实经验。

关键见解: 模型有“心理特质”,与确定性软件不同。理解这些 quirks,才是生产级智能体开发功夫。

智能体强化微调(Agent RFT)

问题: 传统 RL 需百万级数据,很难为特定 agent 收集那么多。

突破点: 用实际工具交互的全流程样本做 end-to-end 训练,数据量小也能见效。真实结果:仅用 100-1000 条成功轨迹,提升 50-72% 性能。

如何操作:

  1. 收集成功 agent 运行轨迹(工具调用、推理过程、最终结果)
  2. 微调模型模仿这些成功做法
  3. 模型不仅学响应,更学策略:何时用工具、怎么排列、遇错如何自救

关键见解: 核心在于学习“智能体工作流”,而不只是输入-输出映射。何时用什么工具、顺序与容错也是训练对象。

技能库进化

问题: agent 多次碰到类似问题,如果不持久化,每次都需重新发明浪费算力与时间。

解决方法: 将有效代码方案固化为持续演进的“技能”:

graph LR A[零散代码] --> B[保存可用方案] B --> C[可复用函数] C --> D[文档化技能] D --> E[agent 能力]

进化路径:

  1. 先为即时问题写 ad-hoc 代码
  2. 成功即存 skills/ 目录
  3. 出参数通用化重构
  4. 增加文档(用途、参数、返回、示例)
  5. agent 后续工作能检索并复用

渐进式披露优化: 不一次性塞入全部技能,只加载描述,按需注入。某次实践下 token 用量降 91%(26 个工具 1.7 万 token → 4 个精选工具 1,500 token)。

关键见解: 企业都希望智能体随时间成长,而不是每次都白手起家。技能就是机构级知识资产。


# 成熟度模型

不是所有模式都一样靠谱。本仓库用状态体系来追踪模式成熟度:

  • proposed——仅提出,尚无大规模采用
  • emerging——早期采纳,有潜力但尚未被验证
  • established——广泛使用,成熟稳健
  • validated-in-production——已在高强度生产系统验证
  • best-practice——业界公认最佳做法
  • rapidly-improving——领域高速演进,模式更新快
  • experimental-but-awesome——实验性很强但极有前景

为什么成熟度重要

agentic AI 行业极速发展,成熟度追踪极为必要,因为:

  • 早期采用风险高:新模式风险多多
  • 稳健 vs 创新:生产系统用可靠模式,研发可试实验新品
  • 投资参考:决定资源投放方向
  • 预期设定:知道模式可提供何种能力

“快速演进”类别

有些领域新旧更迭极快,半年就可能面目全非。如推理优化策略、token 管理、部分工具设计等。

“实验但很酷”类别

有些新颖模式即使未充分验证也值得关注:可能是前沿研究、先锋团队新发现、限定场景下爆炸性好用。

这个标签意味着:“很有前景,谨慎尝试,务必先验证。”


# 实用建议:怎样开始?

你刚刚读完这份 Agentic 模式权威指南,到底从哪一步入手最合适?

第一步:选三个模式

千万别试图一口气学 113 个。先挑三个眼下能用的:

初学者推荐:

已有agent,想扩大规模:

关注安全:

第二步:实践-观察-迭代

模式不是即插即用,需要根据实际场景调整:

  1. 实施模式先部署到自家系统
  2. 观察实际表现是否符合预期
  3. 持续迭代按经验不断优化
  4. 记录经验,尤其是失败同样宝贵

第三步:建立自家模式库

经验丰富后你会发现自己的模式:

  1. 总结各 agent 反复用到的方案
  2. 抽取核心思路(问题→方案→权衡)
  3. 编写案例与出处
  4. 分享到社区/同行网络

本仓库最初 0 到 113 种模式,正是因团队间经验共享。你的模式同样可以帮到大家。

第四步:持续关注前沿

此行业变化飞快。“快速演进”类今天是新宠,明天也可能成熟或被淘汰。

  • 关注仓库新内容
  • 跟进开放分享的头部团队(Anthropic、Sourcegraph、Cognition、Will Larson、Simon Willison 等)
  • 在低风险场景下试验新鲜模式
  • 主动分享你的新发现
posted @ 2026-01-21 18:42  ffl  阅读(0)  评论(0)    收藏  举报