AI Agent(智能体)技术白皮书(Google,2024)
[译] AI Agent(智能体)技术白皮书(Google,2024)
https://arthurchiao.art/blog/ai-agent-white-paper-zh/
【AI Agent基础教学】《Agents》——Google智能体白皮书
https://zhuanlan.zhihu.com/p/17214623012
这是Google于2025年初发布的AI智能体(Agent)白皮书的中文翻译与解读文章。以下是详细总结:
一、背景与定位
-
发布背景:Google在推出Gemini 2.0 Flash(天然Agent形态)后,明确2025年工作重心为多模态(Multimodal)和智能体(Agent)
-
对比Anthropic:不同于Anthropic《Build Efficient Agents》侧重实用经验总结,Google白皮书更侧重基础理论,适合Agent初学者
-
商业意图:文末推广了Google自家的Vertex AI平台
二、智能体(Agent)的核心定义
定义:智能体是一种集成了推理能力、逻辑判断和外部信息获取的生成式AI应用程序。
核心特征:
-
自主性:明确目标后能够独立于人类干预开展行动
-
主动性:能够自主推理下一步行动方案,无需人类具体指令
-
工具使用:通过训练使用外部工具(如数据库、API)补充知识,实现实时信息获取或现实世界行动
三、智能体的三大核心组件
智能体的认知架构包含三个核心组件:
1. 模型(Model)
-
作为中央决策单元的语言模型(LM)
-
可使用一个或多个支持指令式推理和逻辑框架(如ReAct、CoT、ToT)的模型
-
类型包括通用型、多模态型或经过微调的专用模型
-
关键:模型通常未针对智能体配置专门训练,但可通过示例优化适应性
2. 工具(Tools)
-
作用:弥补基础模型无法直接与外部世界互动的不足
-
形式:遵循常见Web API方法(GET、POST、PATCH、DELETE等)
-
功能:更新数据库、获取天气数据、执行金融交易等
-
重要性:连接智能体内部能力与外部世界的桥梁,支持RAG等专业系统
3. 编排层(Orchestration)
-
定义:管理智能体信息接收、内部推理及行动决策的循环过程
-
功能:管理记忆(Memory)、状态(State)、推理(Reasoning)和规划(Planning)
-
终止条件:达成目标或到达终止条件时结束循环
四、智能体 vs 模型的关键区别
表格
| 维度 | 模型 | 智能体 |
|---|---|---|
| 知识范围 | 仅限于训练数据 | 可通过工具接入外部系统获取扩展知识 |
| 推理能力 | 单次查询响应,难以维护上下文连续性 | 维护完整会话历史,支持多轮对话 |
| 工具使用 | 不具备内置工具调用能力 | 架构层面直接支持工具集成 |
| 逻辑处理 | 无内置逻辑层,需通过提示词引导 | 具备完整认知架构,可集成CoT、ReAct等框架 |
五、认知架构与运作机制
厨师比喻
作者用厨师工作场景类比智能体运作:
-
信息获取:收集顾客点单、食材库存
-
内部分析:思考菜品类型和口味搭配
-
执行行动:切配食材、烹饪
-
持续调整:根据反馈优化后续行动
核心推理技术
编排层利用以下提示词工程框架指导推理:
-
ReAct(Reasoning and Action)
-
提供思维过程策略,支持推理和行动
-
性能超过多个最优基准,提高人机交互能力和可信度
-
-
CoT(Chain-of-Thought)
-
通过中间步骤实现推理能力
-
子技术包括:自我一致性(Self-consistency)、主动提示(Active-prompt)、多模态CoT
-
-
ToT(Tree-of-Thoughts)
-
适合探索和战略前瞻任务
-
允许模型探索多条思维路径
-
ReAct运作流程示例
以航班预订为例:
-
Question:用户查询("我想订从奥斯汀到苏黎世的机票")
-
Thought:模型思考下一步行动("我应该搜索航班...")
-
Action:选择工具(Flights Tool)
-
Action Input:提供输入参数(Flights from Austin to Zurich)
-
Observation:获取工具返回结果
-
循环:根据需要重复思考/行动/观察过程
-
Final Answer:生成最终回答
六、工具类型详解:连接外部世界
Google模型可与三种主要工具类型交互:
1. 扩展(Extensions)
-
定义:API和智能体之间的标准化桥梁
-
优势:通过示例教导智能体如何使用API,动态选择最适合任务的工具,无需为每个场景编写自定义代码
-
特点:在智能体端执行API调用
-
示例:Code Interpreter扩展可将自然语言转换为Python代码并执行
2. 函数(Functions)
-
定义:完成特定任务的可重用代码模块
-
与扩展的区别:
-
模型仅输出函数及其参数,不直接执行API调用
-
函数在客户端执行,而扩展在智能体端执行
-
-
使用场景:需要客户端控制API调用逻辑时
3. 数据存储(Data Stores)
-
作用:为智能体提供结构化或非结构化数据访问能力
-
应用:支持RAG(检索增强生成)等场景
七、关键结论
-
智能体的本质:突破传统生成式AI能力边界的程序,通过模型+工具+编排层实现自主决策
-
工具的核心价值:连接基础模型与外部世界,使智能体能够感知、推理并行动
-
编排层的重要性:通过ReAct、CoT等推理框架实现迭代式信息处理和决策优化
-
扩展 vs 函数:扩展适合智能体端直接调用API,函数适合客户端控制执行逻辑

浙公网安备 33010602011771号