AI Agent（智能体）技术白皮书（Google，2024）

[译] AI Agent（智能体）技术白皮书（Google，2024）
https://arthurchiao.art/blog/ai-agent-white-paper-zh/

【AI Agent基础教学】《Agents》——Google智能体白皮书
https://zhuanlan.zhihu.com/p/17214623012

这是Google于2025年初发布的AI智能体（Agent）白皮书的中文翻译与解读文章。以下是详细总结：

一、背景与定位

发布背景：Google在推出Gemini 2.0 Flash（天然Agent形态）后，明确2025年工作重心为多模态（Multimodal）和智能体（Agent）
对比Anthropic：不同于Anthropic《Build Efficient Agents》侧重实用经验总结，Google白皮书更侧重基础理论，适合Agent初学者
商业意图：文末推广了Google自家的Vertex AI平台

二、智能体（Agent）的核心定义

定义：智能体是一种集成了推理能力、逻辑判断和外部信息获取的生成式AI应用程序。

核心特征：

自主性：明确目标后能够独立于人类干预开展行动
主动性：能够自主推理下一步行动方案，无需人类具体指令
工具使用：通过训练使用外部工具（如数据库、API）补充知识，实现实时信息获取或现实世界行动

三、智能体的三大核心组件

智能体的认知架构包含三个核心组件：

1. 模型（Model）

作为中央决策单元的语言模型（LM）
可使用一个或多个支持指令式推理和逻辑框架（如ReAct、CoT、ToT）的模型
类型包括通用型、多模态型或经过微调的专用模型
关键：模型通常未针对智能体配置专门训练，但可通过示例优化适应性

2. 工具（Tools）

作用：弥补基础模型无法直接与外部世界互动的不足
形式：遵循常见Web API方法（GET、POST、PATCH、DELETE等）
功能：更新数据库、获取天气数据、执行金融交易等
重要性：连接智能体内部能力与外部世界的桥梁，支持RAG等专业系统

3. 编排层（Orchestration）

定义：管理智能体信息接收、内部推理及行动决策的循环过程
功能：管理记忆（Memory）、状态（State）、推理（Reasoning）和规划（Planning）
终止条件：达成目标或到达终止条件时结束循环

四、智能体 vs 模型的关键区别

表格

复制

维度	模型	智能体
知识范围	仅限于训练数据	可通过工具接入外部系统获取扩展知识
推理能力	单次查询响应，难以维护上下文连续性	维护完整会话历史，支持多轮对话
工具使用	不具备内置工具调用能力	架构层面直接支持工具集成
逻辑处理	无内置逻辑层，需通过提示词引导	具备完整认知架构，可集成CoT、ReAct等框架

五、认知架构与运作机制

厨师比喻

作者用厨师工作场景类比智能体运作：

信息获取：收集顾客点单、食材库存
内部分析：思考菜品类型和口味搭配
执行行动：切配食材、烹饪
持续调整：根据反馈优化后续行动

核心推理技术

编排层利用以下提示词工程框架指导推理：

ReAct（Reasoning and Action）
- 提供思维过程策略，支持推理和行动
- 性能超过多个最优基准，提高人机交互能力和可信度
CoT（Chain-of-Thought）
- 通过中间步骤实现推理能力
- 子技术包括：自我一致性（Self-consistency）、主动提示（Active-prompt）、多模态CoT
ToT（Tree-of-Thoughts）
- 适合探索和战略前瞻任务
- 允许模型探索多条思维路径

ReAct运作流程示例

以航班预订为例：

Question：用户查询（"我想订从奥斯汀到苏黎世的机票"）
Thought：模型思考下一步行动（"我应该搜索航班..."）
Action：选择工具（Flights Tool）
Action Input：提供输入参数（Flights from Austin to Zurich）
Observation：获取工具返回结果
循环：根据需要重复思考/行动/观察过程
Final Answer：生成最终回答

六、工具类型详解：连接外部世界

Google模型可与三种主要工具类型交互：

1. 扩展（Extensions）

定义：API和智能体之间的标准化桥梁
优势：通过示例教导智能体如何使用API，动态选择最适合任务的工具，无需为每个场景编写自定义代码
特点：在智能体端执行API调用
示例：Code Interpreter扩展可将自然语言转换为Python代码并执行

2. 函数（Functions）

定义：完成特定任务的可重用代码模块
与扩展的区别：
- 模型仅输出函数及其参数，不直接执行API调用
- 函数在客户端执行，而扩展在智能体端执行
使用场景：需要客户端控制API调用逻辑时

3. 数据存储（Data Stores）

作用：为智能体提供结构化或非结构化数据访问能力
应用：支持RAG（检索增强生成）等场景

七、关键结论

智能体的本质：突破传统生成式AI能力边界的程序，通过模型+工具+编排层实现自主决策
工具的核心价值：连接基础模型与外部世界，使智能体能够感知、推理并行动
编排层的重要性：通过ReAct、CoT等推理框架实现迭代式信息处理和决策优化
扩展 vs 函数：扩展适合智能体端直接调用API，函数适合客户端控制执行逻辑

posted @ 2026-02-10 18:04 petercao 阅读(634) 评论(0) 收藏举报

刷新页面返回顶部

Bluestorm's Space

自由意志，自我否定，空杯心态，大道至简