AI Agent(智能体)技术白皮书(Google,2024)

[译] AI Agent(智能体)技术白皮书(Google,2024)
https://arthurchiao.art/blog/ai-agent-white-paper-zh/

【AI Agent基础教学】《Agents》——Google智能体白皮书
https://zhuanlan.zhihu.com/p/17214623012


这是Google于2025年初发布的AI智能体(Agent)白皮书的中文翻译与解读文章。以下是详细总结:

一、背景与定位

  • 发布背景:Google在推出Gemini 2.0 Flash(天然Agent形态)后,明确2025年工作重心为多模态(Multimodal)和智能体(Agent)
  • 对比Anthropic:不同于Anthropic《Build Efficient Agents》侧重实用经验总结,Google白皮书更侧重基础理论,适合Agent初学者
  • 商业意图:文末推广了Google自家的Vertex AI平台

二、智能体(Agent)的核心定义

定义:智能体是一种集成了推理能力、逻辑判断和外部信息获取的生成式AI应用程序。
核心特征:
  • 自主性:明确目标后能够独立于人类干预开展行动
  • 主动性:能够自主推理下一步行动方案,无需人类具体指令
  • 工具使用:通过训练使用外部工具(如数据库、API)补充知识,实现实时信息获取或现实世界行动

三、智能体的三大核心组件

智能体的认知架构包含三个核心组件:

1. 模型(Model)

  • 作为中央决策单元的语言模型(LM)
  • 可使用一个或多个支持指令式推理和逻辑框架(如ReAct、CoT、ToT)的模型
  • 类型包括通用型、多模态型或经过微调的专用模型
  • 关键:模型通常未针对智能体配置专门训练,但可通过示例优化适应性

2. 工具(Tools)

  • 作用:弥补基础模型无法直接与外部世界互动的不足
  • 形式:遵循常见Web API方法(GET、POST、PATCH、DELETE等)
  • 功能:更新数据库、获取天气数据、执行金融交易等
  • 重要性:连接智能体内部能力与外部世界的桥梁,支持RAG等专业系统

3. 编排层(Orchestration)

  • 定义:管理智能体信息接收、内部推理及行动决策的循环过程
  • 功能:管理记忆(Memory)、状态(State)、推理(Reasoning)和规划(Planning)
  • 终止条件:达成目标或到达终止条件时结束循环

四、智能体 vs 模型的关键区别

表格
复制
维度模型智能体
知识范围 仅限于训练数据 可通过工具接入外部系统获取扩展知识
推理能力 单次查询响应,难以维护上下文连续性 维护完整会话历史,支持多轮对话
工具使用 不具备内置工具调用能力 架构层面直接支持工具集成
逻辑处理 无内置逻辑层,需通过提示词引导 具备完整认知架构,可集成CoT、ReAct等框架

五、认知架构与运作机制

厨师比喻

作者用厨师工作场景类比智能体运作:
  1. 信息获取:收集顾客点单、食材库存
  2. 内部分析:思考菜品类型和口味搭配
  3. 执行行动:切配食材、烹饪
  4. 持续调整:根据反馈优化后续行动

核心推理技术

编排层利用以下提示词工程框架指导推理:
  1. ReAct(Reasoning and Action)
    • 提供思维过程策略,支持推理和行动
    • 性能超过多个最优基准,提高人机交互能力和可信度
  2. CoT(Chain-of-Thought)
    • 通过中间步骤实现推理能力
    • 子技术包括:自我一致性(Self-consistency)、主动提示(Active-prompt)、多模态CoT
  3. ToT(Tree-of-Thoughts)
    • 适合探索和战略前瞻任务
    • 允许模型探索多条思维路径

ReAct运作流程示例

以航班预订为例:
  1. Question:用户查询("我想订从奥斯汀到苏黎世的机票")
  2. Thought:模型思考下一步行动("我应该搜索航班...")
  3. Action:选择工具(Flights Tool)
  4. Action Input:提供输入参数(Flights from Austin to Zurich)
  5. Observation:获取工具返回结果
  6. 循环:根据需要重复思考/行动/观察过程
  7. Final Answer:生成最终回答

六、工具类型详解:连接外部世界

Google模型可与三种主要工具类型交互:

1. 扩展(Extensions)

  • 定义:API和智能体之间的标准化桥梁
  • 优势:通过示例教导智能体如何使用API,动态选择最适合任务的工具,无需为每个场景编写自定义代码
  • 特点:在智能体端执行API调用
  • 示例:Code Interpreter扩展可将自然语言转换为Python代码并执行

2. 函数(Functions)

  • 定义:完成特定任务的可重用代码模块
  • 与扩展的区别:
    • 模型仅输出函数及其参数,不直接执行API调用
    • 函数在客户端执行,而扩展在智能体端执行
  • 使用场景:需要客户端控制API调用逻辑时

3. 数据存储(Data Stores)

  • 作用:为智能体提供结构化或非结构化数据访问能力
  • 应用:支持RAG(检索增强生成)等场景

七、关键结论

  1. 智能体的本质:突破传统生成式AI能力边界的程序,通过模型+工具+编排层实现自主决策
  2. 工具的核心价值:连接基础模型与外部世界,使智能体能够感知、推理并行动
  3. 编排层的重要性:通过ReAct、CoT等推理框架实现迭代式信息处理和决策优化
  4. 扩展 vs 函数:扩展适合智能体端直接调用API,函数适合客户端控制执行逻辑



posted @ 2026-02-10 18:04  petercao  阅读(278)  评论(0)    收藏  举报