【综述】自我进化智能体综述:迈向人工超级智能之路

https://arxiv.org/abs/2507.21046

img

摘要

大型语言模型(LLMs)在多种任务中展现了卓越的能力,但其本质上是静态的,无法根据新任务、不断变化的知识领域或动态交互环境自适应地调整内部参数。随着LLMs越来越多地应用于开放式、交互式环境,这种静态特性已成为关键瓶颈,亟需能够实时自适应推理、行动和进化的智能体。这一范式转变——从扩展静态模型到开发自进化智能体——激发了对持续学习和自适应架构与方法的广泛关注,使智能体能够从数据、交互和经验中不断学习和演化。本文首次系统性、全面地综述了自进化智能体领域,围绕三个基础维度——“进化什么”、“何时进化”和“如何进化”进行梳理。我们考察了智能体各组件(如模型、记忆、工具、架构)的进化机制,按阶段(如测试时内部进化、测试间进化)对自适应方法进行分类,并分析了指导进化适应的算法与架构设计(如标量奖励、文本反馈、单智能体与多智能体系统)。此外,本文还分析了针对自进化智能体的评估指标与基准,重点介绍了其在编程、教育、医疗等领域的应用,并指出了安全性、可扩展性和协同进化等关键挑战与研究方向。通过为自进化智能体的理解与设计提供结构化框架,本文为推动自适应、鲁棒和多样化智能体系统在科研与实际部署中的发展奠定了基础,并为实现人工超级智能(ASI)铺路——届时智能体将能够自主进化,在广泛任务上达到或超越人类智能水平。

引言

“能够生存下来的物种,并不是最聪明的,也不是最强壮的,而是那些最能适应环境变化的物种。”
          —— 查尔斯·达尔文

大型语言模型(LLMs)已在广泛任务中展现出卓越能力。然而,它们本质上是静态的,无法在遇到新任务、不断变化的知识领域或动态交互环境时调整其内部参数。随着LLMs越来越多地部署于开放式、交互式环境,这一局限成为关键瓶颈。在此类场景下,传统的知识检索机制已无法满足需求,催生了能够实时动态适应感知、推理和行动的智能体。这种对动态、持续适应的需求,标志着人工智能领域的概念性转变:从扩展静态模型到开发自进化智能体。自进化智能体能够持续从新数据、交互和经验中学习,实现更强的鲁棒性、多样性,并能应对复杂、动态的现实问题。这一转变正推动我们迈向人工超级智能(ASI)的前景——智能体不仅能以不可预测的速度从经验中学习和进化,还能在广泛任务上达到甚至超越人类水平。

与静态LLMs受限于无法适应新颖和变化环境不同,自进化智能体通过持续从现实反馈中学习,克服了这些限制。这一进步重塑了我们对智能体的理解。自进化智能体作为核心概念,将成为ASI的前驱,是通向终极智能进化的中介,如图1所示。近期研究日益关注开发能够持续学习和适应的智能体架构,包括智能体框架、提示策略和多种优化进化方式。尽管取得了诸多进展,现有综述多将智能体进化作为智能体分类体系中的次要部分。以往综述主要系统性地介绍了智能体发展,对自进化机制的覆盖有限,且多局限于特定场景。例如,Luo等人讨论了自学习和多智能体协同进化等方式,Liu等人则从工具和提示等智能体组件角度介绍了进化。此外,部分研究专注于语言模型自身的进化,而非更广泛的智能体概念。迄今为止,尚无系统性综述专门全面探讨自进化智能体作为一类独立研究范式。这一空白导致了若干基础问题未被充分研究:智能体的哪些方面应进化?何时应进行适应?以及如何在实践中实现进化?

img

据我们所知,这是首篇系统性、全面聚焦自进化智能体的综述,为理论研究和实际部署提供了清晰的路线图。我们围绕三个基础问题——进化什么、何时进化、如何进化——组织分析,并为理解每一维度提供结构化框架。具体而言,我们系统性地考察了智能体的各个组成部分,包括模型、记忆、工具及其工作流,探讨其各自的进化机制(第三节:智能体进化什么);随后根据不同时间阶段及学习范式(如有监督微调、强化学习和推理时进化)划分现有进化方法(第四节:智能体何时进化);最后总结了指导智能体进化的不同信号(如文本反馈或标量奖励),以及智能体架构(如单智能体和多智能体进化)(第五节:智能体如何进化)。此外,我们回顾了用于追踪自进化智能体进展的评估指标和基准,强调评估与智能体协同进化的重要性(第六节)。我们还考察了编码、教育、医疗等领域的新兴应用,这些领域对持续适应和进化有着迫切需求(第七节)。最后,识别了持续存在的挑战,并提出了有前景的研究方向,以指导自进化智能体的发展(第八节)。通过对自进化过程在正交维度上的系统分解,我们为研究者提供了结构化、实用的框架,便于系统性分析、比较和设计更鲁棒、更具适应性的智能体系统。总结而言,我们的主要贡献如下:

  • 我们建立了一个统一的理论框架,用于刻画智能体系统中的自进化过程,围绕“进化什么、如何进化、何时进化”三大核心维度展开,为未来自进化智能体系统的设计提供了明确指导。

  • 我们进一步探讨了针对自进化智能体的评估基准和环境,重点分析了适应性、鲁棒性和现实复杂性等新兴指标及相关挑战。

  • 我们展示了自进化智能体在多个领域的关键实际应用,包括自主软件工程、个性化教育、医疗健康和智能虚拟助手,凸显了其广泛的实际潜力。

  • 我们识别了若干关键的开放挑战和有前景的未来研究方向,强调了安全性、个性化、多智能体协同进化和可扩展性等方面。

综上所述,本综述为研究者和实践者提供了一个更结构化的分类体系,便于从不同视角理解、比较和推进自进化智能体的相关研究。随着基于LLM的智能体日益融入关键任务应用,理解其进化动态变得至关重要,这不仅关乎学术研究,也涉及工业应用、监管考量及更广泛的社会影响。

img

img

img

定义与基础

在深入全面综述之前,我们首先给出自进化智能体的形式化定义,并介绍自进化智能体的关键方面的分类法。同时,我们讨论自进化智能体与其他著名学习范式(如课程学习、终身学习、模型编辑和反学习)之间的关系,突出自进化智能体的适应性、动态性和自主性。

定义

环境

我们首先将智能体系统的环境(包括用户和执行环境,如 Linux shell)定义为部分可观测马尔可夫决策过程(POMDP),表示为元组 \(E=(\mathcal{G}, \mathcal{S}, \mathcal{A}, T, R, \Omega, O, \gamma)\),其中:

  • \(\mathcal{G}\) 是潜在目标的集合。每个 \(g\in \mathcal{G}\) 是智能体需要实现的任务目标,例如用户查询。
  • \(\mathcal{S}\) 是状态集合。每个 \(s\in \mathcal{S}\) 表示环境的内部状态。
  • \(\mathcal{A}\) 是动作集合。每个动作 \(a\in \mathcal{A}\) 可以是文本推理、外部知识检索和工具调用的组合。
  • \(T\) 是状态转移概率函数,接收状态-动作对 \((s,a)\) 并输出下一个状态的概率分布 \(T(s'|s,a)\)
  • \(R:\mathcal{S}\times \mathcal{A} \times \mathcal{G} \rightarrow \mathcal{R}\) 是反馈/奖励函数,依赖于具体目标 \(g\in \mathcal{G}\)。反馈 \(r=R(s,a,g)\) 通常为标量分数或文本反馈。
  • \(\Omega\) 是智能体可访问的观测集合。
  • \(O\) 是观测概率函数,接收状态-动作对 \((s,a)\) 并输出智能体下一个观测的概率分布 \(O(o'|s,a)\)
  • \(\gamma\) 是折扣因子。

智能体系统

我们将(多)智能体系统定义为 \(\Pi =(\Gamma,\{\psi_i\}, \{C_i\},\{\mathcal{W}_i\})\)。其中:

  • 架构 \(\Gamma\):决定智能体系统的控制流程或多个智能体之间的协作结构,通常表示为由图结构或代码结构组织的节点序列 \((N_1, N_2, ...)\)
  • 每个节点 \(N_i\) 包含以下组件
    • \(\psi_i\):底层的 LLM/MLLM。
    • \(C_i\):上下文信息,例如提示 \(P_i\) 和记忆 \(M_i\)
    • \(\mathcal{W}_i\):可用工具/API 的集合。

在每个节点,智能体策略是一个函数 \(\pi_{\theta_i}(\cdot|o)\),接收观测并输出下一个动作的概率分布,其中 \(\theta_i=(\psi_i, C_i)\)。实际的动作空间是自然语言空间与工具空间 \(\mathcal{W}_i\) 的并集。

对于给定任务 \(\mathcal{T}=(E, g)\)(由环境 \(E\) 和目标 \(g\in \mathcal{G}\) 表示),智能体系统按照拓扑结构 \(\Gamma\) 生成轨迹 \(\tau=(o_0, a_0, o_1, a_1,...)\),并从外部环境或内部信号(如自信度或评估器反馈)获得反馈 \(r\)

自进化策略

自进化策略是一个变换 \(f\),根据生成的轨迹 \(\tau\) 和外部/内部反馈 \(r\),将当前智能体系统映射到新的状态:

\[f(\Pi, \tau, r)=\Pi'=(\Gamma',\{\psi'_i\}, \{C'_i\}, \{\mathcal{W}'_i\}) \]

自进化智能体的目标

\(U\) 为效用函数,用于衡量智能体系统 \(\Pi\) 在给定任务 \(\mathcal{T}\) 上的表现,分配一个标量分数 \(U(\Pi, \mathcal{T}) \in \mathbb{R}\)。该效用可以来自任务特定的反馈 \(r\)(如奖励信号或文本评价),也可结合其他性能指标(如完成时间、准确率或鲁棒性)。给定一系列任务 \((\mathcal{T}_0, \mathcal{T}_1, ..., \mathcal{T}_n)\) 和初始智能体系统 \(\Pi_0\),自进化策略 \(f\) 递归地生成智能体系统序列 \((\Pi_1, \Pi_2, ..., \Pi_n)\),具体为:

\[\Pi_{j+1} = f(\Pi_j, \tau_j, r_j) \]

其中 \(\tau_j\)\(r_j\) 分别为任务 \(\mathcal{T}_j\) 上的轨迹和反馈。

自进化智能体的总体目标是设计一个策略 \(f\),使所有任务上的累计效用最大化:

\[\max_f \sum_{j=0}^n U(\Pi_j, \mathcal{T}_j) \]

与其他工作的关系

表1 总结了自进化智能体与其他范式(包括课程学习、终身学习、模型编辑和反学习)之间的关键区别。与这些主要关注模型参数更新的现有范式不同,自进化智能体将更新目标扩展到非参数化组件,如上下文(提示和记忆)以及工具集。这一扩展空间带来了更大的灵活性,使自进化智能体能够在顺序任务环境中有效运行,并在测试时进行适应。更重要的是,自进化智能体独特地展现了主动探索(如在线搜索开源工具)、自身拓扑结构的修改(如迭代修改工作流或代码)、自我反思和自我评估能力(如使用内部评估器 LLM 提供口头反馈),这些能力在以往范式中并不存在。

img

下面简要介绍每种范式,突出它们之间以及与自进化智能体的差异。

课程学习

课程学习是一种 AI 模型训练策略,数据按照难度递增的顺序呈现。这一策略类似于人类课程,概念从简单到复杂逐步引入。课程学习已广泛应用于计算机视觉、自然语言处理、语音识别等领域。近年来,已有多种基于课程学习的方法用于 LLM 的微调。课程学习框架通常包含两个关键组件:难度评估器(量化每个训练数据点的难度)和训练调度器(根据难度调整数据点的顺序)。
与课程学习在静态数据集上操作不同,自进化智能体旨在动态环境中处理顺序任务。此外,课程学习仅更新模型参数,而自进化智能体能够调整记忆和工具等非参数化组件。

终身学习

终身学习指 AI 模型在面对新任务和环境时,能够持续、适应性地学习,同时保留已获得的知识和能力。这一学习范式也称为持续学习或增量学习,对于 AI 模型在动态复杂环境中运行至关重要。终身学习的主要目标是在稳定性(保留已有知识)和可塑性(获取新知识)之间取得平衡。
虽然与自进化智能体同样面临顺序任务设置,但终身学习有两点不同:(1)与课程学习类似,终身学习通常仅更新模型参数,缺乏修改非参数化组件的能力;(2)终身学习主要通过外部反馈或人工指导被动获取知识,而自进化智能体能够主动探索环境,并可能结合内部反思或自我评估机制。

模型编辑与反学习

模型编辑与反学习旨在高效、精准地修改 AI 模型中的特定知识,同时保留无关知识并避免完全重训练。模型编辑的典型应用是高效、精准地进行局部事实更新(如将“2021 年奥运会举办城市”从“东京”修改为“巴黎”)。早期方法关注原子知识三元组,后来扩展到多种可信相关任务。近期研究还提出了顺序执行模型编辑的终身模型编辑方法。
对于反学习,早期主要关注隐私相关信息的移除。随着 LLM 的快速发展,反学习也被用于提升 LLM 的安全性。

与终身学习相比,模型编辑目标一致:都旨在获取新知识或能力,同时缓解灾难性遗忘。然而,终身学习通常依赖于对所有模型参数的大规模梯度微调,而模型编辑则通常仅针对少量参数进行定向修改。与自进化智能体相比,模型编辑(1)无法修改记忆或工具等非参数化组件;(2)依赖于算法设计者预定义的流程,而自进化智能体能够根据环境观测或内部反馈信号自发采用更丰富灵活的策略。

演化什么?

从预编程的静态系统到真正自主的智能体,转变的关键在于“自我演化”能力。这种持续改进并非单一维度,而是体现在智能体系统的多个方面。因此,自我演化智能体的首要任务是识别 可演化组件 ——即在智能体系统 \(\Pi =(\Gamma,\{\psi_i\}, \{C_i\},\{\mathcal{W}_i\})\) 中,哪些部分可以随时间显式改变?

按照第2节的公式化,智能体系统可分解为四个基本且可演化的支柱:

  • 模型\(\{\psi_i\}\)):智能体的认知核心,其推理和行为的基本参数可通过自身经验不断更新。
  • 上下文\(\{C_i\}\)):塑造智能体行为的指令和长期记忆,能够演化以适应和提升智能体表现。
  • 工具\(\{\mathcal{W}_i\}\)):智能体的外部能力,通过自主创造、掌握和管理新技能来突破固有限制。
  • 架构\(\Gamma\)):智能体系统及其协作结构,可动态优化以提升整体性能和效率。

表2 展示了这些可演化维度的部分子集。

img

模型

模型是智能体的核心基底,直接决定其推理、规划和决策行为。模型能够通过不断适应其内部参数和扩展功能能力来演化,这对于发展自主、通用智能体至关重要。与依赖人工标注数据和固定训练流程的静态系统不同,自我演化模型可以通过交互、自监督数据生成和动态学习循环来提升,从而实现更高的效率、适应性和可扩展性。

具体而言,模型演化主要沿以下几个轴展开:包括通过自生成监督信号来优化模型权重,以及通过与构建或外部环境的交互来演化。总体而言,这些策略代表了从被动学习范式向主动、持续和自我驱动改进的转变。

策略(Policy)

自我演化智能体能够通过优化自身参数,在特定任务上获得更优表现。传统的数据收集方法用于训练工具使用型智能体,成本高且覆盖有限,而纯粹的合成数据生成流程往往质量不足。因此,近期研究强调让智能体自主生成数据,以提升自身模型权重。

典型方法如 Self-Challenging Agent(SCA),其语言模型在“挑战者”与“执行者”角色间交替:挑战者生成可执行的 Code-as-Task 问题,执行者负责求解。模型随后利用成功解题的轨迹微调自身参数,在复杂多步任务上取得显著性能提升。类似地,Self-Rewarding Self-Improving 框架实现了内部自评机制,模型可自主生成问题、解决问题并自我评估,从而无需外部标注即可产出自包含的微调数据,在复杂推理任务上表现突出。

除任务生成外,另一重要方向是直接利用交互反馈进行参数更新。例如,SELF、SCoRe 和 PAG 将执行轨迹或自然语言批评解释为奖励信号,在在线监督微调(SFT)与强化学习(RL)框架下实现持续策略优化。TextGrad 更进一步,将非结构化文本反馈视为可微分训练信号,直接影响提示设计和模型参数。此外,AutoRule 将语言模型的推理轨迹和偏好反馈转化为显式规则奖励,借助结构化奖励信号提升模型输出质量。

总体而言,这些进展勾勒出清晰路径:智能体从自主生成训练任务,到直接利用执行反馈优化参数,展现了模型通过自产数据持续演化的能力。

经验(Experience)

智能体的演化不仅体现在内部参数的调整,还包括主动与环境交互甚至构建环境,捕捉经验并将其转化为驱动迭代改进的学习信号。这一环境循环为智能体提供了可扩展自适应所需的复杂性与多样性。

Self-Challenging Agent(SCA)在任务层面体现了这一动态:智能体自主生成新颖的 Code-as-Task 问题,执行并筛选成功轨迹用于自我再训练。AgentGen 将这一理念扩展至完整环境生成,基于初始语料合成多样化的仿真世界(如 PDDL 或 Gym 格式),并实现双向演化循环,动态调整任务难度,使智能体在结构化课程中持续成长。Reflexion 则引入自反机制,智能体迭代记录自然语言批评,指导未来行为避免重复错误。

此外,AdaPlanner 提出闭环自适应规划,智能体可根据环境反馈实时优化策略,有效调整行动序列以应对即时结果。Self-Refine 采用迭代修正循环,智能体反复批评并修订初始输出,无需显式再训练即可显著提升任务准确率。SICA(自改进编码智能体)更进一步,使智能体能自主编辑底层代码和工具,通过直接自我修改迭代增强核心推理能力。

在强化学习视角下,RAGEN 和 DYSTIL 等框架将多步工具使用任务建模为马尔可夫决策过程,通过丰富环境奖励和策略归纳循环优化智能体策略。RAGEN 利用环境密集反馈迭代微调行动策略,DYSTIL 则借助语言模型生成的高层策略建议,逐步将复杂决策技能内化到强化学习智能体中。

综上,这些方法展现了自我演化智能体不仅能利用自生成数据,还能主动重塑环境和内部机制以驱动持续学习。这种动态交互循环指向了自主、开放式改进周期,其核心是基于经验的自适应演化。

上下文

LLM 智能体的一个关键可演化组件是“上下文”,它决定了智能体的行为方式。我们首先解释两个常见术语:“提示优化”(Prompt Optimization)和“记忆演化”(Memory Evolution),它们在不同文献中常被交替使用,因为都涉及上下文窗口的内容。提示优化关注“如何措辞或结构化指令,使 LLM 表现更好?”,强调措辞、顺序等细节;而记忆演化则关注“如何存储、遗忘和检索上下文,使智能体保持信息充分并提升表现?”,重点在于如何呈现或归档过往信息。

记忆演化

基于 LLM 的智能体越来越多地设计了可随任务和环境交互不断增长和适应的长期记忆机制。演化的记忆使智能体能够积累知识、回忆事件,并根据经验调整行为。许多研究强调,记忆管理的有效性对智能体性能至关重要。例如,SAGE 利用艾宾浩斯遗忘曲线决定保留或遗忘哪些信息;A-mem 通过动态索引和链接,将智能体记忆结构更新为互联的知识网络,遵循 Zettelkasten 方法的基本原则;Mem0 提出两阶段流程,先从近期对话中提取关键信息,再决定如何更新长期记忆,包括新增、合并/更新冗余内容或删除矛盾信息,确保长期记忆的连贯与时效性;MemInsight 为原始记忆添加语义结构,对过去交互进行摘要和标签,便于后续检索;REMEMBER 结合 LLM 与经验记忆,并利用强化学习信号决定每轮后如何更新记忆。

记忆演化的核心在于让智能体能从过去经验中学习启发式或技能。高级智能体不仅检索具体实例,还能将经验提炼为更一般的指导。例如,Expel 处理过往轨迹,生成洞见和规则以指导后续交互,这种经验知识积累带来可衡量的性能提升。其他系统则关注存储更高层次的问题解决模块,如 Agent Workflow Memory 记录常见子任务序列,使智能体在解决复杂任务时能检索并复用已验证的行动序列,而无需从零规划。Richelieu 外交智能体通过自我博弈,增强记忆并存储模拟交互的洞见,优化未来决策。通过从具体事件泛化到可复用知识,这些方法展示了记忆演化如何将智能体的一次性经验转化为长期能力,推动智能体持续进化。

提示优化

记忆演化关注智能体保留哪些知识,而提示优化(Prompt Optimization, PO)则让 LLM 智能体通过优化输入指令实现自我演化,无需修改模型权重即可直接改变模型行为。早期研究将指令设计视为搜索问题:APE 生成候选提示,在验证集上评分并选取最佳;ORPO 让模型根据先前输出反馈迭代重写自身提示;ADO 引入语义约束以促进最优提示的发现;ProTeGi 生成自然语言“修正”,作为提示编辑,形成文本版梯度下降;PromptAgent 将提示发现建模为蒙特卡洛树搜索,战略性探索指令空间;PromptBreeder 等进化方法维护提示种群,发现更有效的指令;REVOLVE 通过追踪模型响应轨迹并平滑更新,稳定长时间优化过程。SPO 则实现完全自洽循环,模型自生成训练数据并通过输出偏好比较优化提示,无需外部标注或人工反馈。这些技术共同证明,智能体可自主优化提示策略,使提示文本成为可随经验共同演化的可学习组件。

在复杂系统中,智能体常需编排多次 LLM 调用或与其他智能体协作,使提示设计成为多节点问题。DSPy 等框架将整个工作流表示为图,联合优化各子提示以达成全局目标。Trace、TextGrad 和 LLM-AutoDiff 将每个提示视为可微分程序的参数,通过自然语言“梯度”优化每一步。在协作场景下,Multi-Agent System Search (MASS) 先优化个体角色提示,再细化智能体间通信模式;MAS-ZERO 动态提出和修订角色提示,为每个新问题组建高效团队。EvoAgent 和 AgentSquare 等进化系统将每个智能体及其提示视为模块,通过变异和选择发现优于手工设计的专用团队。这些方法将提示优化从单条指令扩展到定义整个工作流或智能体社会的语言体系。

工具

智能体的能力本质上由其可用工具所定义。智能体发展的轨迹经历了一个关键的演化:从仅仅是工具使用者,转变为自主工具创造者。这种从依赖预定义、静态工具集到能够自主扩展和完善自身技能的转变,是迈向认知自足的关键一步。该范式允许智能体动态适应自身能力,从而解决初始设计者未曾预见的复杂问题。这一演化过程主要体现在工具发现、掌握和管理三个互相关联的方面,具体如下所述。

自主发现与创造

自主工具创造的主要动力在于突破固定工具集的固有限制,使智能体能够按需创新。相关方法现已涵盖从机会性发现到正式合成的广泛谱系。一方面,像 Voyager 这样的智能体通过涌现的试错机制,在如 Minecraft 这类复杂、开放环境中不断扩展技能库,依靠内在动机探索。这种探索性方法有助于生成多样化技能,但可能缺乏精确性。另一方面,Alita 和 ATLASS 等系统则采用更具反应性的策略,通常利用检索增强生成(RAG)技术,在发现能力缺口时即时搜索开源代码库或从零编写新函数。

在谱系的另一端,则是高度结构化的框架,将工具创造视为有计划的工程过程。例如,CREATOR 将抽象工具创造(如推理如何设计一个可复用的函数,用于计算 N 天的平均温度)与具体工具使用(如决定如何将该函数应用于特定城市和时间范围)分离,从而提升模块化和复用性。更正式的 SkillWeaver 框架则分析人类或智能体成功的任务轨迹,提出、合成并打磨新技能为健壮、可复用的 API,确保更高的初始质量。此外,CRAFT 等框架证明,为特定领域创建专用工具集对于补充通用模型至关重要,使其在不牺牲适应性的前提下实现专家级性能。RL-GPT 将生成的代码实现集成到强化学习流程中,作为工具解决复杂任务,同时对简单任务直接采用 Code-as-Policy 策略。这种集成能够根据环境反馈动态调整和演化,实现持续改进。然而,这种不断增强的自主性也带来了安全和保障方面的重大挑战。无限制的代码生成可能导致工具存在可被利用的漏洞或意外的有害行为,因此自动化验证和沙箱隔离成为未来研究的关键领域。

通过迭代精进实现工具掌握

自创工具的激增要求智能体具备强大的掌握机制——新生成的工具往往只是脆弱的脚本,尚未成为可靠的函数。此时,迭代精进流程至关重要。LearnAct 和 From Exploration to Mastery 等框架建立了关键的自我修正循环,智能体通过自身经验不断学习。这一过程涉及复杂的“归因”问题:智能体需精准定位导致失败的代码行或参数。为此,智能体会分析多种反馈信号,包括编译器错误、异常的 API 返回值、环境状态变化,甚至用户后续行为的隐性信号。目标不仅是调试底层代码,还要完善工具文档(如 docstring 和参数说明),以提升智能体未来对工具的理解和正确使用能力。

这一精进过程也为人机协作提供了契机。虽然完全自主是终极目标,但许多系统可设计为“人类在环”,由专家提供修正、提出高层建议或验证新工具。协作方式能显著加速掌握过程,并确保智能体技能符合人类意图与安全标准。最终,这种自我打磨机制将初生技能提升为可靠能力,确保智能体技能库不仅数量增长,更重要的是质量和稳健性同步提升。

可扩展的管理与选择

随着智能体掌握的技能库扩展至数百甚至数千项,其面临“丰饶的诅咒”:挑战从创造工具转变为高效管理和选择工具。庞大的库带来巨大的检索空间,使传统方法变慢且不准确。为解决这一问题,ToolGen 提出范式转变,将工具编码为语言模型词表中的独特 token。这样,工具检索被优雅地转化为生成问题,利用 transformer 强大的模式识别能力,将最合适的工具作为思维过程的自然延续进行预测。

除了单一工具选择,先进智能体还需擅长工具组合——学习将多个工具串联,解决多步复杂问题。这是更高阶的管理任务。AgentSquare 等架构采用元学习方法,自动搜索智能体的模块化设计空间(包括规划、记忆和工具使用组件),以发现复杂任务的最优配置。作为演化趋势的逻辑终点,达尔文哥德尔机(Darwin Godel Machine)等前瞻性概念提出开放式演化框架,智能体可根本性地重写自身核心代码。在这一愿景下,智能体与工具的界限逐渐模糊,形成递归的自我改进级联,超越了单纯的工具增强。本质上,这一演化路径旨在建立闭环的良性循环:真正自主的智能体能够感知能力缺口,自主创造新方案,通过实践掌握,并无缝整合到不断扩展且有序管理的技能库中。

架构

新一代智能体系统的核心特征是其内在的自我优化能力。这标志着从固定能力系统向能够自主提升性能的系统的根本转变。通过将自身的内部逻辑和协作结构视为可优化组件,这些系统能够根据反馈自适应调整行为和设计,从而实现静态设计无法企及的效率和效果。本节首先介绍单智能体系统的优化方式,随后探讨复杂多智能体系统的协同演化。

单智能体系统优化

LLM 节点优化

单次 LLM 调用的优化在孤立场景下较为直接,但在智能体系统中则面临棘手的归因问题——单个节点的变化效果常被后续步骤掩盖。相关研究通过使节点级组件可优化,主要采用两类策略。第一类聚焦于在固定智能体拓扑结构内细化节点。例如,TextGrad 受反向传播启发,利用“文本梯度”将最终输出的反馈逆向传递至各节点,实现系统性、局部优化而无需改变整体结构。第二类策略则将节点优化直接融入系统架构搜索,将节点特性作为更大搜索空间中的可调参数。例如,部分框架将提示工程嵌入搜索循环,使系统能同时发现最优工作流和每个智能体的最佳指令。EvoFlow 则采用进化算法,从多样化模型池中为每个任务选择最合适的 LLM,构建异构工作流。这种整体策略实现了结构与单体能力的协同优化,有效平衡整体性能与成本等指标。

自主智能体优化

在节点优化基础上,更深层次的自我改进目标是将智能体作为整体进行优化。该演化主要沿两条路径展开:一是优化智能体的高层架构设计,二是使智能体能直接修改自身源代码。第一种方法聚焦于发现最优智能体结构。例如,AgentSquare 通过定义规划器、记忆模块等组件的模块化设计空间,并利用进化算法为特定任务寻找最有效组合。第二种路径则涉及智能体动态重写自身操作代码,如 Darwin Gödel Machine 递归修改自身 Python 代码库,AlphaEvolve 采用进化编码优化特定算法,Gödel Agent 则提供自指框架让智能体分析并修改自身逻辑。这两种方向——优化智能体的架构“蓝图”和其功能代码——共同展现了将智能体基础结构和逻辑转化为可学习组件的关键趋势。

多智能体系统优化

智能体在系统中的组织方式及其通信结构(即拓扑)决定了其解决复杂问题的能力。该领域已从固定的人工设计通信结构,发展到能够根据任务自动调整组织方式的动态系统,使智能体能够发现并利用最有效的协作模式。相关研究主要沿两个方向展开:静态显式工作流的优化,以及动态内部策略的协同演化。

智能体工作流优化

智能体工作流优化关注于为特定问题寻找最有效的(通常是静态的)通信与任务分配结构。早期研究奠定了重要基础,如 AutoFlow 实现了从自然语言自动生成线性工作流,GPTSwarm 则提出了统一的图结构框架。同时,其他基础性工作探索了智能体如何通过符号学习,将交互经验提炼为显式、可解释的逻辑规则,以指导未来决策。这种将系统抽象为可调组件(如节点、边或符号规则)的做法至关重要。然而,这些早期系统通常缺乏高效探索庞大配置空间的正式方法。

重大突破来自 ADAS 和 AFlow,它们将该挑战正式定义为搜索与优化问题。ADAS 首次提出将系统设计视为对图灵完备代码配置空间的搜索,奠定了理论基础。AFlow 则通过引入可复用的操作符(代表常见智能体模式)并采用蒙特卡洛树搜索(MCTS)高效探索设计空间,使这一愿景变得可行。两者共同确立了将智能体系统设计视为可处理优化问题的核心方法论,并证明自动发现的工作流能够超越人工设计方案。

按照这一形式化,后续研究迅速扩展,针对每个具体查询定制智能体系统。主要策略分为基于搜索和基于学习两类。搜索方法如 MaAS 构建“超网”,从中采样专用系统;学习方法则直接训练模型生成有效拓扑。例如,ScoreFlow 采用新颖的偏好优化方法训练生成器,FlowReasoner 则用强化学习训练元智能体动态构建定制工作流。这一针对查询的生成方向仍是活跃研究领域。此外,许多框架不仅优化拓扑,还联合优化节点(如提示或模型选择),实现结构与单体能力的协同进化。

所有搜索与学习方法面临的核心挑战是评估每个候选工作流的计算成本。为此,研究者开发了轻量级预测模型。Agentic Predictor 便是典型代表,通过结构和语义特征训练模型,无需完整执行即可准确估算工作流性能。作为快速、低成本的评估代理,这类预测器显著加速了优化过程,使大规模设计空间的探索成为可能。

多自主智能体协同优化

区别于优化系统的显式工作流结构,另一方向关注多个自主智能体如何通过交互协同演化其内部行为策略。这一方法催生了协作、任务分配和有益竞争等涌现能力。例如,ReMA 采用多智能体强化学习(MARL)协同训练高层元思考者与低层执行者,在推理基准上显著提升性能。GiGPO 在此基础上,通过聚合轨迹实现更精确的归因,提升长程任务的成功率。为支持该方向,MARTI 等平台提供开源基础设施,便于组织和扩展语言模型集体的训练。总体而言,这些研究表明多智能体强化学习是培养个体无法实现的群体能力的有前景路径。

何时进行自进化

LLM驱动的智能体自进化的时间维度,主要关注学习过程与任务执行之间的关系。因此,自进化智能体的第二个关键方面是确定进化时机,即在系统的哪个阶段调用并应用自进化策略 \(f\)。为此,我们提出了一种区分自进化时间模式的分类法:测试内自进化测试间自进化

img

测试内自进化指的是在任务执行过程中发生的自适应过程,智能体在特定问题上识别自身局限,并启动针对性的学习机制以实时增强能力。这种进化模式的特点是与当前任务紧密耦合:智能体针对遇到的具体问题提升其解决能力,形成性能与适应之间的动态互动。

测试间自进化则指在任务完成之间发生的学习过程,利用积累的经验提升未来表现。该类别涵盖多种方法论:离线学习范式通过迭代优化从预收集的数据集中提取知识,在线学习范式则根据流式交互数据持续适应。

在这些时间阶段实现自进化,主要依赖于LLM中的三种基本学习范式:上下文学习(ICL),通过上下文示例适应行为而不修改参数;监督微调(SFT),通过对标注数据的梯度优化更新模型权重;强化学习(RL),通过奖励驱动的策略优化塑造行为。这些学习范式在不同时间模式下的实现方式有所不同,具体体现在数据可用性和学习目标上:

测试内自进化的特点是在线性:学习数据在任务执行过程中动态生成,优化目标直接针对当前问题实例的性能提升。这种实时耦合要求快速适应机制,能够在主动任务解决的时间约束内处理学习数据和反馈信号并修改行为。相比之下,测试间自进化具有回顾性:学习算法作用于历史数据,无论是策划的数据集还是积累的行为轨迹,优化目标则是提升整个任务分布上的期望表现,而非最大化某一具体问题的成功率。这种时间上的解耦,使得更复杂的学习过程成为可能,能够识别跨任务模式、整合多样经验,并在不受实时任务约束的情况下发展可泛化能力。

测试内自进化

在测试内自进化中,智能体的自我提升过程与当前任务的解决紧密耦合。该时间阶段的显著特征是同步性:反馈信号在任务执行过程中生成并被处理,优化目标专注于提升当前问题实例的表现,而非泛化到未来任务。以下介绍三种学习范式在该阶段的实现方式。

上下文学习
测试内ICL方法将模型的上下文窗口作为动态记忆系统,实现即时适应而无需参数修改。这类方法通常采用自反机制,智能体分析自身表现,生成语言化的自我批评或洞见,并将这些反思保存在情景记忆缓冲区,以指导同一任务中的后续决策。一些方法进一步支持动态规划修正,智能体可根据环境反馈实时调整方案,在行动执行与方案修改之间灵活切换。例如,AdaPlanner将任务分解为可管理的子目标,并预测每步的环境反馈。执行过程中,其refiner组件区分“方案内反馈”(观察与预测一致)和“方案外反馈”(观察与预测不符)。对于方案内反馈,refiner通过专用的ask_LLM()动作动态查询LLM,解析观察结果并提取关键信息;对于方案外反馈,则主动修订整体方案,并从中间步骤继续解决,而非从头开始。该自适应闭环框架无需预先了解反馈结构,实现了更高效的决策。同样,TrustAgent在执行过程中采用基于规则的方案修正,根据语言反馈调整策略,逐步进化为更安全的规划方式。这些ICL方法展示了测试时适应如何在不永久改变模型的前提下实现复杂行为调整,兼具灵活性与通用性。

监督微调
测试内SFT代表了一种范式转变,模型通过学习到的元适应策略实现即时自我修改。自适应语言建模方法通过生成“自我编辑”指令,重构信息表达、指定优化超参数或调用工具进行数据增强与梯度计算。这些自我编辑触发即时监督微调,导致模型权重的持久更新,从而适应当前任务。其核心创新在于元学习阶段,利用强化学习训练模型生成高效自我编辑,以更新后模型的下游表现作为奖励信号,实质上教会模型如何自我教学。

强化学习
测试内RL使模型在遇到能力边界时能按需发展新技能。LADDER通过测试时强化学习(TTRL)机制实现:当系统识别到极具挑战性的问题时,会生成一组相关问题变体,并针对该问题类别进行密集、定向的强化学习。该方法将难题转化为学习机会,使模型在部署期间扩展问题解决能力,而不是失败或输出次优答案。这是一种“即时技能获取”模式,计算资源在最需要的时刻和位置被精准投入。

测试间自进化

测试间自进化代表了智能体中最主要的学习过程,其适应行为发生在任务执行之后,而非执行期间。在这一时间模式下,智能体完成特定任务后,提取反馈信号,包括显式奖励、梯度和性能指标,随后利用这些信息提升未来问题解决能力。这种回顾性学习过程将任务表现与能力提升解耦,使智能体能够整合经验、识别成功与失败模式,并在不受实时任务计算约束的情况下系统性地优化行为策略。

img

上下文学习
测试间上下文学习已成为智能体自我提升的主流方法。该范式利用先前任务的执行结果和反馈作为未来问题解决的上下文信息。Wang等人通过从智能体行为历史中归纳工作流,并将其纳入后续任务的上下文,实现了这一原理。上下文强化学习(ICRL)进一步扩展了该概念,将观测与动作历史保存在智能体的上下文窗口中。这些方法利用预训练神经网络能够在前向推理过程中实现隐式强化学习算法的假设,通过处理上下文信息实现行为适应,无需参数更新。ICRL的显著特征是上下文内提升:随着与任务相关的信息在上下文中不断积累,智能体表现逐步增强,通过注意力机制实现复杂适应,而非依赖梯度学习。

监督微调
测试间SFT方法通过合成数据生成与自我评估实现迭代自我提升。SELF开创了元认知训练,模型首先学习自我反馈与自我完善能力,随后针对未标注指令生成响应,并通过自我批评不断优化。STaR和Quiet-STaR聚焦于推理能力提升,模型尝试解答问题后,为最初未能解决的正确答案生成解释,从而构建结合成功尝试与事后推理的增强训练数据。SiriuS将该方法扩展到序列问题解决,维护正确解答库,并通过多阶段反馈整合、再生成与重述对失败案例进行增强。这些方法的核心洞见在于:模型能够通过学习评估和优化自身输出,实现自举式提升,从最初不完美的尝试中创造高质量训练信号,无需大量人工监督。

强化学习
测试间RL利用不受约束的计算资源,通过广泛的环境交互和复杂的课程设计优化智能体。RAGEN和DYSTIL采用在线强化学习进行多轮交互任务,通过在模拟对话中持续优化策略。Learning Like Humans引入认知启发式训练,结合自适应难度进阶、在策略探索与专家演示之间切换,实现高效学习。领域应用展示了测试间RL的多样性:WebRL通过自进化课程自动调整任务复杂度,培养网页导航智能体;DigiRL使设备控制智能体通过自主强化学习掌握真实环境中的交互。这些方法利用部署前阶段进行大量试错学习,通过数千次交互发展出强健策略,而这些过程在实时部署期间难以实现。

如何进化

自我进化的追求是构建先进、自治且日益通用人工智能的核心。对于大语言模型(LLMs)及其智能体扩展而言,如何持续、自动且高效地提升其能力,已成为一个关键挑战。因此,第三个自我进化智能体的核心要素,是实现一种有效的进化策略 \(f\),即如何将智能体系统 \(\Pi=(\Gamma,\{\psi_i\}, \{C_i\}, \{\mathcal{W}_i\})\) 转变为其新状态 \(\Pi'=(\Gamma',\{\psi'_i\}, \{C'_i\}, \{\mathcal{W}'_i\})\)与传统依赖静态数据集或一次性监督微调的方法不同,自我进化强调模型从真实世界交互中持续学习,主动寻求反馈、自我反思、生成或筛选新数据,并根据动态环境调整策略。这一持续进化过程不仅仅是扩大数据或算力规模,更要求智能体具备一系列元能力,包括自我纠错、自动数据生成、知识迁移和多智能体协作。因此,自我进化的方法体系日益丰富和多元化,每个分支都在反馈类型、学习范式、数据来源和进化尺度等不同维度上进行探索。

本章节旨在系统梳理和分析主要的自我进化方法体系,提供一个统一的框架以理解其原理、机制及相互作用。我们首先介绍基于奖励的进化,该方法以奖励信号的设计为核心——包括自然语言反馈、内部置信度指标、外部或隐式信号——以引导模型迭代自我提升。接着,我们探讨模仿与示范学习,在该范式下,智能体通过学习高质量示例(可由自身生成,也可由其他智能体或外部来源提供)来提升能力。该方法在示范丰富或可自动合成时尤为有效,推动了推理和多模态领域的显著进展。最后,我们介绍基于群体和进化的方法,其灵感来源于生物进化和集体智能。这类方法通过维护智能体变体或协作智能体的群体,利用选择、变异、交叉和竞争等机制并行探索解空间,促进多样性,并推动新策略或架构创新的涌现。

基于奖励的自我进化

自我提升能力是先进智能的基石。在大语言模型(LLMs)领域,这一能力表现为一种基于奖励驱动的动态进化过程,模型通过不断学习自身输出和交互结果,迭代优化其能力。奖励信号的设计至关重要,它决定了学习过程的性质、效率和有效性。本节系统梳理了主流的奖励设计方法,按反馈类型分为:文本反馈、内部置信度、外部奖励和隐式奖励。

img

文本反馈

文本反馈利用LLM的原生模态——自然语言,提供详细且可解释的优化建议。与标量奖励不同,文本反馈能够传达细致的批评和可执行的改进方案。近期框架如Reflexion、AdaPlanner、AgentS2、SELF、Self-Refine、SCoRe、PAG和TextGrad等均体现了这一方向。例如,Reflexion提出“语言强化学习”,智能体通过自然语言反思过往尝试,将这些反思作为情景记忆,指导后续决策。AdaPlanner实现了闭环自适应规划,允许LLM智能体根据计划内外的反馈动态修正方案,同时通过代码风格提示和技能发现缓解幻觉问题。Self-Refine和SELF进一步探索了多轮自反馈与自纠错,证明即使是最先进的模型,也能通过多轮语言自我批评获得提升,无需额外监督数据或外部强化。这些框架凸显了语言作为奖励通道的强大能力,使自我进化过程更具细腻性、灵活性和样本效率。

内部奖励

内部置信度奖励不依赖外部信号,而是利用模型自身的概率估计或确定性等内部指标。这一范式通过模型的内在理解来引导自我提升,无需外部监督。相关方法包括置信度引导自洽(CISC)、自集成(Self-Ensemble)、自奖励自提升(Self-Rewarding Self-Improving)、基于自置信度的可扩展best-of-N选择,以及自奖励语言模型(Self-Rewarding Language Models)等。这些方法允许模型根据内部置信度指标自我评估和校准输出。例如,CISC通过置信度分数对推理路径加权,从多个候选中筛选高质量解答,提升准确率和计算效率。自集成通过将选择分组并聚合预测,缓解过度自信偏差。自奖励语言模型则证明模型可以充当自身的奖励函数,通过自指令和自评估循环生成训练数据。这些方法能够减少对人工标签和外部评估器的依赖,实现可持续、自动化的自我提升循环,无需人工干预。

外部奖励

外部奖励来自模型之外的信号,如环境反馈、多数投票或显式规则。多数投票通过多个模型输出的一致性作为正确性的代理,提供自生成但有依据的奖励信号。环境反馈(包括工具信号)是智能体LLM研究的核心(如SWE-Dev、SICA、Feedback Friction、USEagent、DYSTIL),智能体通过与真实环境和工具的直接交互进行学习。规则奖励利用显式约束或逻辑规则作为可验证信号,在数学推理、游戏和结构化问题求解领域尤为有效。这些方法提供了客观、可靠的监督,但可能需要大量工程设计,或在表达能力上存在局限。

隐式奖励

隐式奖励框架假设LLM即使没有明确标注奖励信号,也能从反馈中学习。例如,“Reward Is Enough”证明LLM可以在上下文窗口中嵌入简单的标量信号,实现上下文内强化学习,无需显式RL微调或监督即可在多轮交互中提升响应质量。这揭示了模型能够理解并利用输入上下文中的隐式反馈信号的内在能力。近期工作进一步表明,LLM在标准训练目标下本身就编码了类似奖励的信号。内生奖励(Endogenous reward)显示标准的下一词预测隐式学习了通用奖励函数,可直接从模型logits中提取,无需额外训练。此外,ImPlicit Self-ImprovemenT(PIT)框架通过最大化参考响应条件下的质量差异,从人类偏好数据中隐式学习提升目标,无需额外人工标注。与规则或环境驱动的外部奖励不同,隐式奖励方法通过发现和利用语言建模中固有的奖励信号,展现了独特优势。

模仿与示范学习

模仿与示范学习是一种自我进化智能体提升能力的范式,其核心是通过学习高质量的示范样本(可由自身生成,也可来自其他智能体或外部来源)来不断优化行为模式。与依赖显式奖励信号的奖励驱动方法不同,模仿范式强调复现和改进成功的行为轨迹,通常通过迭代自训练和自举机制实现。这一方法在高质量示范充足或可自动生成时尤为有效,使智能体能够以极低的外部监督成本自举能力。

自生成示范学习

自生成示范学习指智能体通过自身输出的迭代优化过程,主动生成训练数据,并从中筛选高质量样本进行学习。

推理能力自举。
提出了自生成示范学习的基础框架,使语言模型能够通过迭代自训练自举推理能力。具体流程为:模型生成问题的推理链,对正确解答进行微调,并不断循环此过程,无需依赖真实推理路径。后续工作进一步优化了自举流程。例如,提出了验证器引导的自训练方法,利用独立的验证模型评估生成的推理链质量,仅将高质量样本纳入训练数据,从而提升自我进化的可靠性。此外,提出了自适应数据采样策略,根据模型在不同推理任务上的表现动态调整训练数据组成,有效缓解了对特定问题类型的过拟合。

多模态自训练。
将自训练扩展到多模态领域面临生成高质量视觉与文本示范的挑战。相关工作展示了视觉-语言模型如何通过自身生成的图像描述和视觉推理链进行迭代训练。该方法利用模型已有的视觉理解能力生成详细的图像描述,并以此微调模型的视觉感知,实现自举式提升。进一步研究则赋予多模态大模型强大的数据生成能力,通过高级提示工程和质量筛选机制,自动生成跨模态、多任务的多样化训练样本,推动模型在多模态领域的自我进化。

跨智能体示范学习

跨智能体示范学习指的是智能体通过学习其他智能体(无论是系统内部还是外部来源)提供的示范,实现知识迁移与协同提升。

多智能体自举推理。
该框架允许多智能体系统通过自举推理相互学习彼此的成功示范。系统维护一个经验库,收集不同智能体生成的成功交互轨迹,促进高效的知识共享与协同进步。每个智能体都可以利用整个系统的集体经验,从而加速学习过程,并发现多样化的解决策略。该框架展示了智能体如何在复杂任务中各自专精不同环节,同时受益于系统整体的知识积累。

领域特定示范学习。
在专业领域,示范学习的应用尤为有效,能够通过专家示范实现知识迁移。例如在推荐系统中,自优化微调等技术使基于大语言模型的推荐系统能够从自身成功的推荐模式中学习,形成反馈闭环,持续提升个性化能力。系统通过用户成功交互生成高质量推荐示范,并利用这些数据微调底层语言模型,最终实现更准确、更个性化的推荐效果。

混合示范学习

混合示范学习结合了自生成示范与外部示范,构建更为稳健且多样化的训练机制,充分发挥两者的优势。

递归自我提升。
该方法展示了智能体如何通过结构化自我反思与示范生成,系统性地提升自身行为。语言模型智能体能够对自身推理过程进行内省,识别薄弱环节,并生成针对性纠正示范,从而不断完善自身能力。递归自我提升形成了持续改进的闭环,使智能体在自我诊断与自我纠错方面愈发高效,最终实现更强健、更具适应性的行为模式。

置信度引导的示范筛选。
近期发展聚焦于更精细的示范筛选机制,结合自生成与外部示范。置信度驱动方法利用模型的不确定性估计,筛选出最有助于学习的高质量示范,过滤掉可能有害或低质量的样本。该方法解决了示范学习中的关键难题:低质量示范可能导致性能下降。通过确保仅使用高置信度、高质量的示范进行训练,有效保障了学习过程的可靠性。

模仿与示范学习的效果高度依赖于示范的质量与多样性。当高质量示范充足时,这类方法能取得显著进展,但在优质示范稀缺或最优行为未被充分覆盖的领域则面临挑战。未来研究方向包括:发展更智能的示范筛选与生成策略、提升从不完美示范中学习的鲁棒性,以及构建更优的多源示范融合机制。

基于群体和进化的方法

基于群体和进化的方法代表了与前述奖励驱动和模仿驱动方法截然不同的智能体进化范式。奖励驱动方法通常通过迭代奖励信号优化单一智能体,模仿学习则依赖示范样本进行能力提升,而群体进化方法则借鉴生物进化和集体智能的思想。此类方法通过同时维护多个智能体变体,实现解空间的并行探索,并通过选择、变异、交叉和竞争等机制促进能力多样性和新策略的涌现。这种方式能够覆盖更广泛的搜索空间,发现梯度优化难以触及的创新解法,尤其适用于解空间复杂、多峰或最优策略涉及架构层面变革而非参数微调的场景。

单智能体进化

单智能体进化方法聚焦于通过群体机制进化单个智能体,通常通过多个智能体变体的竞争与演化实现能力提升。主要可分为两类:进化学习和多轮自对弈。

进化学习。
该范式直接借鉴生物进化思想,维护智能体变体群体,并通过进化算子发现更优能力。Darwin Gödel Machine (DGM) 通过开放式进化实现自我改进智能体,维护所有历史版本的归档,允许从任意过去“物种”分支而非线性优化。系统通过智能体直接修改自身Python代码实现自指改进,进化过程由编码基准上的实际表现驱动,父代选择兼顾性能分数与多样性奖励,鼓励广泛探索。与代码级进化互补,Nature-Inspired Population-Based Evolution (GENOME) 框架直接将遗传算法应用于语言模型参数进化,维护模型群体并在权重空间进行交叉、变异和选择。GENOME+进一步引入粒子群优化思想,增加继承机制和集成方法,展示了无梯度进化优化在参数空间探索中提升模型能力的有效性。

多轮自对弈。
该范式强调智能体通过自我竞争和多轮探索轨迹实现能力提升。Self-Play Fine-Tuning (SPIN) 通过当前模型与历史版本对弈,形成进化压力,仅保留持续改进的策略,无需外部标注。SPC 进一步发展为复杂的对抗式协同进化,采用“狡猾生成器”生成迷惑性错误,“步骤评论员”进化以检测更隐蔽的错误,通过自动验证实现无人工步骤标注的持续提升。STL 展示了自教学进化,通过迭代前瞻搜索,价值模型利用自身探索轨迹生成训练数据,将数值价值学习与自然语言推理链结合,实现持续自举提升。这些方法共同遵循以智能体自生成经验为学习信号的原则,构建无需外部监督的自我进化闭环。

多智能体进化

多智能体进化方法将群体进化范式扩展到整个智能体团队或网络,重点优化集体行为、协同策略和协作架构。根据进化机制,这类方法主要分为两大范式:系统架构进化和知识驱动进化。

系统架构进化。
该范式关注多智能体系统的结构与协同机制进化,包括团队组成、编排策略和工作流优化。EvoMAC 框架借鉴神经网络训练思想,实现“文本反向传播”,将编译错误和测试失败作为损失信号,驱动智能体团队组成和个体提示的迭代修改。专门的“更新团队”分析文本反馈,识别问题智能体并生成修改指令,相当于在智能体配置空间进行梯度优化而非模型参数空间。在结构进化基础上,Puppeteer 则聚焦于协同策略进化而非团队成员变更。系统采用集中式编排器,通过强化学习进化决策策略,动态选择每步激活的智能体,兼顾任务性能与计算成本。该“操纵者-傀儡”范式展示了架构层面的进化如何在协同层面发生,发现高效协作模式和涌现行为,如核心智能体间更紧密的协同及复杂的循环交互模式。

知识驱动进化。
该范式强调通过记忆积累和案例学习进化多智能体团队的集体知识与经验,主要通过情境学习或类似情境的适应实现,而非参数更新。MDTeamGPT 构建了双知识库系统,CorrectKB用于存储成功案例,ChainKB用于捕捉失败反思,使系统能通过结构化案例检索和推理增强,从成功与错误中学习。在医学咨询场景下,MedAgentSim 展示了知识驱动进化在真实诊断中的应用,通过患者交互积累经验,并利用检索增强生成提升咨询质量。PiFlow 将该范式应用于科学发现,维护原理-结果对的轨迹,并通过信息论优化引导假设生成。

跨维度进化方法比较

智能体自我进化是一个多维度的过程,涉及多种影响智能体学习、适应和提升的关键因素。除了具体的学习算法或监督信号之外,这些维度共同定义了自主智能体设计与分析的核心原则。本节系统性地比较了三大主流自我进化方法体系——基于奖励、模仿/示范、群体进化——在若干关键维度上的异同,包括学习范式(在线/离线)、策略一致性(on-policy/off-policy)、奖励粒度(过程级、结果级或混合),以及反馈类型、数据来源、样本效率、稳定性和可扩展性等(详见表4)。这一全面比较为理解不同智能体进化方法的优势、局限与设计权衡提供了统一视角。

img

img

在线与离线学习

自我进化智能体设计的一个基本维度是学习范式,可分为离线(offline)和在线(online)两类。其核心区别在于智能体的进化更新是基于静态、预先收集的数据集(离线),还是通过与实时环境的持续交互(在线)进行。

离线学习
离线学习范式将学习阶段与实际任务执行解耦。通常包括离线数据生成、筛选和模型微调等循环,重点在于部署前构建强大的通用基础模型。
典型策略是LLM自举(bootstrapping),即模型利用自身生成的内容提升能力。例如,Self-Instruct 展示了语言模型如何通过生成新指令及响应,构建合成数据集进行微调,从而自举指令跟随能力。WizardLM 则进一步演化自生成指令的复杂度,推动模型在更具挑战性的任务上提升能力。
在GUI和Web智能体领域,离线学习通常依赖高质量轨迹的监督微调(SFT)。OS-Genesis 提出了反向任务合成方法自动创建轨迹,UI-Genie 则采用统一奖励模型评估轨迹,并通过自我提升循环迭代生成高质量数据。这些方法均致力于构建丰富的SFT数据集,提升智能体解决复杂任务的能力。
除SFT外,离线方法还包括在静态数据集上进行强化学习。例如,GUI-R1 和 InfiGUI-R1 利用规则奖励,在离线GUI数据集上应用R1风格训练。

在线学习
在线学习允许智能体在与实时或模拟环境交互过程中持续学习和适应。每次行动的反馈可实时用于更新智能体的策略、计划或知识库,使其更好地应对动态或未知场景。
部分智能体在线进化并非通过模型权重更新,而是实时优化计划和技能库。例如,Voyager 展示了一个LLM驱动的智能体,通过持续探索、自主生成任务和技能库,实现在线学习Minecraft。
AdaPlanner 聚焦于任务内计划自适应,智能体生成初始计划,接收环境反馈并在线修正方案。SwiftSage 则采用快思慢想机制,能针对快速直觉模式的失败进行反思,并在任务难度提升时切换至更深度的工具使用模式,实现在线策略调整。
强化学习是在线学习的核心机制,使智能体能从环境奖励信号中学习。DigiRL 展示了如何在真实设备环境下训练控制智能体,DistRL 提出异步分布式框架以实现设备端在线训练。MobileGUI-RL 针对移动GUI环境的在线训练挑战,提出合成任务生成管道,并结合轨迹感知奖励的群体相对策略优化(GRPO)。

同策略与异策略学习

上一节讨论了数据收集与学习的时机(在线 vs 离线),本节则聚焦于智能体进化中的策略一致性——即智能体是从当前正在优化的策略生成的经验中学习(同策略),还是从其他策略生成的经验中学习(异策略)。这一区分对于理解智能体如何利用自身经验、在学习稳定性与样本效率之间权衡具有重要意义。

同策略学习
同策略方法要求智能体仅从当前策略生成的经验中学习,确保策略一致性,但通常以样本效率为代价。Reflexion 就是典型的同策略方法,通过迭代自我反思机制,智能体用当前策略生成响应,针对失败获得反馈,并立即将反馈用于下一轮推理过程。GRPO 和 DAPO 等方法也采用多次 rollout,始终从当前行为中学习,保持严格的策略一致性。在智能体场景下,同策略方法具有极佳的学习稳定性,避免了异策略方法常见的分布不匹配问题。然而,其样本效率较低,每次策略更新都需新鲜数据收集,对于复杂多步推理或工具使用等高质量轨迹生成成本高昂的任务,计算开销较大。

异策略学习
异策略方法允许智能体从不同策略生成的经验中学习,包括历史版本、其他智能体或人类示范,大幅提升样本效率,但可能带来分布不匹配风险。DPO 展示了复杂的异策略方法,模型 \(M_{t+1}\) 从前一版本 \(M_t\) 生成的偏好数据中学习,通过 DPO 内置的 KL 散度约束,防止新策略偏离数据生成策略过远。RRHF 则通过排名监督,从多样化响应来源(其他模型、人类、不同采样策略)中学习,将对齐问题转化为排序问题,巧妙规避了策略一致性要求。多智能体场景下,系统通过“经验库”收集历史策略生成的成功交互轨迹,实现高效复用昂贵的多智能体协作数据。在智能体场景中,异策略方法在样本效率上表现突出,能充分利用历史数据、专家示范和跨智能体学习,尤其适用于成功轨迹稀缺、生成成本高的多步推理和工具使用任务。但其面临分布偏移、奖励欺骗(reward hacking)等挑战,需要通过正则化等机制保障训练稳定性。

奖励粒度

奖励设计中的另一个关键选择是其粒度,即智能体获得学习信号的细致程度。奖励粒度从粗粒度的结果级奖励(仅评估整体任务完成情况),到细粒度的过程级奖励(评估智能体轨迹中的每一步),各自适用于不同任务复杂度和学习目标。当前自我进化框架根据任务需求采用不同粒度的反馈机制。

结果级奖励(Outcome-based Reward)
结果级奖励是一种仅根据智能体是否成功完成预定任务来评估的反馈机制。该奖励仅由智能体轨迹的最终状态决定,忽略中间步骤。在动态环境(如网页或GUI导航)中,如何有效利用成功和大量失败轨迹进行学习是核心挑战。为此,Direct Preference Optimization (DPO) 设计用于直接最大化偏好响应的概率,同时通过KL散度约束参考策略。RRHF 则采用排序损失方法,通过对多响应概率排序对齐人类偏好,无需辅助价值模型。此外,许多智能体自我进化框架也基于结果级奖励构建。例如,AutoWebGLM 采用拒绝采样微调,通过预设奖励模型评估轨迹结果,筛选成功轨迹并用高质量数据更新模型。DigiRL 将GUI导航任务建模为马尔可夫决策过程(MDP),在每个episode结束时用VLM评估器获得稀疏的最终奖励。WebRL 针对动态网页环境反馈稀疏问题,开发了鲁棒的结果监督奖励模型(ORM),在自进化课程框架下评估任务成功,使智能体能从失败中学习并逐步提升。

过程级奖励(Process-based Reward)
与仅有最终结果的奖励不同,过程级奖励通过评估智能体轨迹中的每一步,提供更细致、渐进的反馈。过程监督奖励模型(PRM)在复杂推理任务(如数学问题求解)中比结果监督奖励模型(ORM)更可靠。然而,获得细粒度的步骤级反馈传统上需要大量人工标注,难以扩展。为解决这一瓶颈,Math-Shepherd 提出自动过程标注框架,利用蒙特卡洛树搜索(MCTS)自动收集每步是否有助于最终正确答案的监督。AlphaMath 则训练价值模型评估解题路径中每步的正确性,并在MCTS框架下通过探索与利用同时更新策略和价值模型。通过过程级奖励,智能体可实现逐步、渐进的能力提升。rStar-Math 和 AgentPRM 均提出了策略与过程奖励模型的迭代进化方法,无需人工标签即可生成更高质量的推理路径。Agent Q 在MCTS过程中集成步骤级验证机制,收集高质量轨迹,并通过DPO训练迭代优化策略。

混合奖励(Hybrid Reward)
混合方法结合了最终任务成功的清晰信号(结果级)和中间步骤的细致指导(过程级),为智能体提供更全面的学习信号。该方法既克服了仅有结果信号的稀疏性,又保证了逐步推理与最终目标的一致性。例如,GiGPO 针对长序列智能体训练不稳定问题,提出双层奖励机制:episode级奖励用于整体轨迹成功,步骤级奖励用于中间动作。双重信号既提供高层目标引导,又有低层纠错指导。SPA-RL 则提出奖励分解方法,将稀疏结果信号分配到多步轨迹的每一步,根据最终任务完成度为每步归因,生成密集的中间进度奖励,提升强化学习效果并保持与最终任务目标的一致性。

自我进化方法的其他维度

除了学习范式、策略一致性和奖励粒度等核心轴线外,表4还强调了区分自我进化方法的其他重要维度:

反馈类型。
不同方法的反馈类型差异显著:基于奖励的方法利用标量奖励、自然语言信号或模型置信度;模仿方法侧重于示范轨迹和推理过程;群体进化方法则采用适应度分数或竞争信号。反馈类型决定了智能体用以提升的核心信息来源。

数据来源。
基于奖励的方法通常通过智能体与环境交互或工程化规则生成数据,模仿学习则依赖人类或专家示范。群体进化方法则汇集多个智能体或多代的集体经验,促进多样性探索,但需要复杂的协调机制。

样本效率。
在高质量示范充足的前提下,模仿学习通常样本效率最高,智能体可直接模仿专家行为。基于奖励的方法样本效率居中,且高度依赖奖励信号的稀疏程度。群体进化方法样本效率最低,往往需要大量智能体变体和多轮试验评估。

稳定性。
基于奖励的学习对奖励函数的设计和质量极为敏感,容易出现奖励欺骗或非预期行为。模仿学习高度依赖示范的质量和多样性。群体进化方法则受群体规模和多样性影响,规模过小或同质化群体易陷入早熟收敛。

可扩展性。
可扩展性取决于数据或反馈收集的可行性,以及学习过程的并行化能力。基于奖励的方法在反馈自动化(如模拟器)时易于扩展。模仿学习常受示范收集成本限制。群体进化方法可扩展至大规模计算,但资源消耗极高。

这些维度共同构建了更细致、多元的自我进化策略视角,为智能体学习管道的设计与选择提供了系统性参考,帮助研究者针对具体领域挑战做出最佳方法决策。

演化的领域

自我进化代理推动了众多领域和应用的进步。总体而言,这些应用可以系统性地分为两类:
(1)通用领域演化,代理系统在数字领域内不断扩展其能力以应对多样化任务;
(2)专用领域演化,代理系统针对特定任务领域提升专业能力。
本质上,通用助手的演化侧重于将已学经验迁移到更广泛的任务集,而专用代理的演化则强调在特定领域内深化专业知识。

img

通用领域演化

第一类是通用领域演化,指的是为通用型应用设计的自我进化代理,尤其是多功能数字助手。这些代理不断提升自身能力,以应对动态多变的数字环境中的广泛用户需求。
从技术角度看,通用助手代理主要通过三种机制增强能力:记忆优化、课程驱动训练和模型-代理协同进化。这些机制共同促使代理持续适应并有效应对日益复杂的用户需求。

记忆机制

最常见的代理演化机制是记忆机制,即代理将历史成功/失败经验总结为记忆表示,期望这些精炼的经验能在处理新任务时发挥作用。
例如,Mobile-Agent-E采用长期记忆结构,包括“Tips”(通用指导)和“Shortcuts”(可复用的动作序列),这些均源自过去经验。该自我进化模块支持在复杂手机任务上的持续性能提升。
另一个典型例子是MobileSteward,它在中央代理协调下管理多个应用专属代理,拥有任务调度、执行和评估等模块,并通过记忆机制总结成功执行经验以优化未来跨应用指令处理。
同时,Generative Agents存储自身经历的情景记忆,合成更高层次的反思,并将未来规划建立在自我反思基础之上。
这些例子表明,记忆机制是代理内化过往经验、抽象高层模式并优化未来行为的基础。

模型-代理协同进化

另一类工作是针对LLM代理进行模型-代理协同进化。UI‑Genie构建了一个专门的图像-文本奖励模型,对轨迹进行步骤级和任务级评分。它通过受控扰动和困难负样本挖掘生成合成轨迹,并在多代迭代中联合微调代理和奖励模型。WebEvolver引入了协同进化的世界模型LLM,用于模拟网页环境。该模型通过预测下一步观察生成合成训练数据,并在推理时实现前瞻性推理,大幅提升了真实网页任务的成功率。Absolute Zero通过强化自我博弈协同进化推理代理及其内部自奖励模型。该框架通过对抗性生成越来越具挑战性的推理问题,并以内部自信度作为奖励信号优化代理,实现了代理策略和自奖励机制的同步更新。这些方法共同展示了协同进化代理与辅助模型(如奖励模型或世界模型)在提升LLM代理系统的鲁棒性、泛化性和可扩展性方面的有效性。

课程驱动训练

课程驱动训练也是构建自我进化通用助手的重要机制。例如,WebRL采用自我进化课程:当代理失败时,会自动生成类似但更易管理的任务。结合学习型奖励模型和自适应策略更新,在WebArena基准测试中显著提升了成功率。Voyager同样在Minecraft中利用自动化、由下至上的课程机制,GPT‑4根据代理进展提出合适的下一个任务,通过迭代式提示和环境反馈不断扩展基于代码的技能库。这些方法凸显了课程学习如何帮助代理通过迭代任务适应自主扩展能力。

专用领域演化

除了通用数字代理,自我进化代理也已在专用领域得到有效应用,其演化过程针对特定任务集显著提升了性能。

编程领域

自我进化代理在编程领域展现出强大的实际应用能力,其自主适应和改进的能力为软件开发带来了变革性方法。SICA 证明了自我改进编码代理能够自主编辑自身代码库,并提升在基准任务上的表现。EvoMAC 在多代理协作网络中引入自我进化范式,自动优化单体代理提示词和多代理工作流,通过克服人工设计系统的局限性,显著提升代码生成性能。AgentCoder 也聚焦于多代理代码生成框架,通过迭代优化实现自我进化。程序员代理根据测试执行代理的反馈不断改进代码,并通过独立测试设计者的测试用例进行验证,大幅提升了效率和有效性。Zhang 等人让 LLM 代理通过筛选高质量答案、按难度分层经验,并从自生成数据中自适应选择示例,实现持续进化,显著提升性能并构建了机器学习库。这些实例虽然机制各异——从单代理自我编辑到复杂的多代理协作网络及基于经验的学习——但都共同遵循迭代自我改进和自主适应的核心原则,以增强编程能力。
这些进展凸显了自我进化代理通过持续学习和优化,能够极大提升编程效率和代码质量。

图形用户界面(GUI)

自我进化 GUI 代理将 LLM 能力从纯文本推理扩展到桌面、网页和移动界面的直接操作,需应对庞大的离散动作空间、异构布局和部分视觉可观测性。Yuan 等人将像素级视觉与自我强化结合,使代理无需额外人工标注即可迭代提升点击-类型定位准确率。在真实桌面软件上,WindowsAgentArena 的 Navi 代理通过回放和批判自身失败轨迹,最终在 150 个 Windows 挑战任务中将完成率提升一倍。针对开放网页自动化,WebVoyager 融合截图特征与链式反思,连续自我微调使其在未见网站上的端到端成功率从 30% 提升至 59%;而 ReAP 通过加入过往结果的情景记忆,在先前失败查询上又恢复了 29 个百分点的成功率。除了强化学习和记忆机制,\textit{AutoGUI} 每轮训练周期从实时界面持续挖掘功能注释,扩展可复用技能库;MobileUse 则部署分层自我反思栈,实时监控、验证并修正智能手机操作。总体而言,这些系统体现了自我进化的完整三要素——演化对象(定位模块、技能记忆)、演化时机(离线整合 vs. 在线反思)、演化方式(强化学习、合成数据、分层监控),为通用界面代理的实现指明了方向。

金融领域

在金融等专用领域定制代理的主要瓶颈在于如何高效构建并整合领域知识库到代理的学习过程中——这一挑战可以通过自我进化机制有效缓解。QuantAgent 提出了一种两层框架,通过模拟和真实环境反馈,迭代优化代理响应并自动增强其领域知识库。该过程帮助代理逐步逼近最优行为,减少对昂贵人工数据集的依赖,并在交易任务中显著提升预测准确率和信号质量。TradingAgents 则结合反思、强化学习和真实交易结果反馈循环,以及协作式辩论,不断优化策略并提升交易表现。这些进展表明,自我进化代理有望彻底变革金融领域,实现自主构建领域知识、适应动态市场并持续提升决策与交易能力。

医疗领域

自我进化代理已成为医疗 AI 的重要范式,其适应性和进化能力对于应对真实临床实践的复杂性和动态变化至关重要。最突出的应用之一是医院级模拟。例如,Agent Hospital 构建了由 LLM 驱动的医生、患者和护士闭环环境,使医生代理能够处理数千个虚拟病例,通过自主优化诊断策略,无需人工标注,最终在 USMLE 风格考试中取得优异成绩。MedAgentSim 集成了 LLM 医生、患者和工具代理,记录成功咨询为可复用轨迹,并通过链式反思和共识驱动自我进化,随着交互次数增加不断提升成功率。EvoPatient 让医生代理与患者代理持续对话,每一代都用高质量交流更新记忆:患者生成更真实的症状描述,医生则学会提出更精准的问题,且无需显式梯度更新或手工奖励。强化学习也是构建自适应医疗代理的核心。例如,DoctorAgent-RL 将咨询建模为马尔可夫决策过程,奖励函数综合诊断准确率、覆盖度和效率,通过策略梯度优化帮助代理提出更相关问题并更快做出正确诊断,优于模仿学习方法,实现自我提升。此外,自动化架构搜索方法如“Learning to Be a Doctor”将工作流本身视为可进化对象,迭代插入专家子代理或新的推理步骤,以覆盖失败模式并提升多模态诊断准确率。除了临床决策,自我进化代理也已扩展至生物医学发现。OriGene 作为虚拟疾病生物学家,通过迭代优化分析流程,结合人类和实验反馈,更新核心推理模板、调整工具使用策略并完善分析协议。STELLA 则作为自我进化的生物医学研究代理,通过将成功推理流程提炼为可复用模板(Template Library),并不断扩展工具库(Tool Ocean),以满足新兴分析需求,实现持续进化。

教育领域

自我进化 LLM 代理在教育领域也展现出强大应用价值。
在学习者层面,个性化导师 PACE 等自我进化代理会根据详细的学生画像调整提示词,并在对话过程中持续优化提问方式。同时,LLM 间自我博弈框架能够生成多样化的师生对话,进一步微调代理,使其教学策略在交互过程中不断演化。
另一个例子是 MathVC,它为虚拟学生设定符号化角色画像,并通过元规划器组织真实的问题解决阶段,使代理的对话过程逐步演化,最终引导学生获得正确解答,高度模拟了协作学习的自然过程。
在教师层面,自我进化代理系统如专业发展平台 i-vip 部署了教练、评估者和反馈生成器等多代理团队,实时批判并优化彼此输出。这些代理会根据教师学习者的反馈自适应调整解释方式,并在部署后持续吸收专家反馈,优化提示策略。
类似地,EduPlanner 将课程设计建模为对抗循环,规划者的初稿会被评估者和优化者反复审查和完善,直到满足多样化教育目标。
SEFL 也采用师生自我博弈生成大量作业-反馈样例,用于微调轻量级反馈模型,显著提升了评论的清晰度和实用性。
这些案例共同说明,自我进化 LLM 代理能够动态适应学习者和教师,推动更加个性化、高效和可扩展的教育体验。

其他领域

除了上述四大垂直领域,自我进化代理在更多专业场景中展现了卓越的适应性和性能,尤其是在传统代理难以胜任的复杂任务中。
例如,Arxiv Copilot 通过整合历史用户交互(包括生成答案、研究趋势和创新想法)到其思维数据库,不断学习和适应,从而提升个性化学术辅助能力。
在完全不同的环境中,Minecraft 游戏中的 Voyager 代理能够在新世界中从零解决新任务,通过自动化课程机制持续优化任务目标、扩展技能库,并利用迭代提示机制提升行为,无需人工干预。
在需要明确战略规划的领域,Agents-of-Change 通过迭代性能分析和战略研究自动优化提示词和代码重写,帮助代理克服长期规划的固有限制,在复杂环境(如卡坦岛)中实现更优异和连贯的表现。
最后,在外交领域,Richelieu 引入了能够自我进化的 AI 外交代理,通过自我博弈机制积累多样化经验,增强记忆、战略规划和反思能力,无需人工数据即可提升外交活动的整体表现。
这些案例虽分布于学术研究、虚拟游戏、战略桌游和复杂外交等不同环境,但都具备持续学习、自我优化和自主适应的核心特征,推动代理在各自领域实现更复杂、更高效的智能行为。
这些多样化案例进一步证明了自我进化代理的广泛适用性,展现了其在复杂动态任务和类人智能领域的巨大潜力。

自我进化智能体的评估

评估自我进化智能体面临着一系列独特挑战,这些挑战远超传统静态 AI 系统的评估方式。与通常在某一时刻、固定任务集上进行评估的传统智能体不同,自我进化智能体旨在通过与动态环境的持续交互不断学习、适应和提升。因此,其评估不仅要关注即时任务的成功,还必须涵盖诸如随时间的适应性、知识积累与保持、长期泛化能力,以及跨序列或新颖任务的技能迁移能力,同时还要防止灾难性遗忘。这要求我们从传统的“单次评估”转向对智能体成长轨迹的纵向视角。

img

评估目标与指标

为了有效评估自我进化智能体,我们必须突破传统指标,建立一个能够全面反映其动态、适应性和长期学习能力的评估框架。一个真正有能力且理想的自我进化智能体不仅要能够学习和提升,还要记住过去的知识、迁移到新情境、实现可持续运行并表现出负责任的行为。基于这些对持续且强健 AI 的关键要求,我们将主要评估目标划分为五个核心维度:适应性保持性泛化性效率安全性,如表5 所示。每个维度都对应智能体自我进化过程中的关键方面,能够为其性能提供全方位的视角。

img

适应性

适应性是评估任何自我进化智能体的基础标准,衡量其通过经验在域内任务上提升性能的能力。该维度关注智能体在特定领域内迭代和进化过程中学习曲线的量化,以及性能提升的程度。与静态成功率不同,适应性需随时间、步骤或迭代进行衡量。典型指标包括按迭代步骤的成功率,用于跟踪智能体在下游任务中的表现随交互历史的变化。

保持性

保持性是评估自我进化智能体知识库稳定性的关键标准。本维度主要关注灾难性遗忘问题——即在终身学习过程中,新知识的获取会侵蚀先前学到的信息,以及在长期交互中的知识保持能力。可以通过两个关键指标从不同角度量化这种稳定性:遗忘(FGT)和反向迁移(BWT)。具体地,设 \(J_{i,t}\) 表示智能体在完成第 \(t\) 个任务后对第 \(i\) 个任务的表现,FGT 和 BWT 的计算公式如下:

\[FGT_t = \frac{1}{t-1} \sum_{i=1}^{t-1}[\displaystyle \max_{j\in \lbrace i,i+1,...,t\rbrace }(\lbrace J_{j,i} \rbrace _j)-J_{t,i} ] \quad BWT_t=\frac{1}{t-1}\sum_{i=1}^{t-1}(J_{t,i}-J_{i,i}) \]

FGT 衡量智能体在学习新任务后对旧任务的平均准确率下降,从而反映有用经验是否被成功保持。BWT 则评估因新任务经验带来的旧任务平均准确率提升。正的 BWT 表明新学习对旧任务有积极影响,意味着知识迁移成功,学习过程更稳健。

泛化性

适应性和保持性关注的是域内表现,而泛化性则是衡量自我进化智能体将积累的知识应用于新领域或新任务的关键能力。真正智能的体应不仅能在熟悉领域表现优异,还能展现跨领域泛化能力。评估方法包括在多任务、多领域测试集上计算综合性能指标(如平均成功率),以及在保留任务分布上进行域外评估,以模拟真实世界的新颖场景。

效率

效率衡量自我进化智能体的资源利用能力。由于智能体持续运行并自主决策,评估其进化过程的成本和速度至关重要,尤其是在计算和时间资源有限的实际应用场景中。关键指标包括令牌消耗(衡量推理和生成过程的计算成本)、时间消耗、完成任务所需的步骤数,以及工具交互频率(如工具生产力),这些指标共同反映智能体在保证任务表现的前提下,最小化资源消耗的能力。较低的指标值通常意味着更高的效率。

安全性

从自我进化的角度来看,安全性领域关键在于评估智能体在持续进化过程中是否会发展出不安全或不良的行为模式。该维度关注智能体对预设规则的遵守情况以及其产生有害行为的倾向。评估自我进化智能体安全性的主要指标包括:(1)安全分数,衡量智能体行为被标记为“安全”的测试用例比例;(2)危害分数,通过详细的人工评分标准计算,当输出触发部分但非全部有害标准时可获得部分分数;(3)策略下完成率(CuP),评估智能体在严格遵守给定规则或政策的前提下完成任务的能力;(4)风险比率,计算智能体在特定维度上违反规则的频率,提供非合规行为的定量指标;(5)拒绝率,衡量智能体因任务具有攻击性、恶意或其他不安全因素而拒绝执行的比例;(6)泄漏率,统计智能体无意中泄露敏感或私人信息的频次。

评估范式

鉴于自我进化智能体的持续学习范式,其评估需要超越传统静态评估的多维方法。当前评估范式可根据评估的时间范围大致分为:静态评估短期适应性评估长期终身学习能力评估。每一类别关注智能体进化能力的不同方面,从瞬时表现到长期学习轨迹。

静态评估

静态评估是在某一特定时刻评估自我进化智能体的瞬时表现。尽管这些智能体旨在持续提升,静态方法仍然对于建立基线性能、在固定任务集上比较不同智能体架构或在离散训练阶段后评估能力至关重要。这种方法与传统 AI 评估一致,关注在固定环境中的即时表现。虽然适用于“域内进化,域外评估”的泛化能力评估,但静态评估本质上无法捕捉自我进化智能体所强调的动态、持续学习和长期进化特性。

为了评估智能体在某一时刻的整体能力,通常采用为静态 AI 系统设计的标准基准。这些基准涵盖多样化的任务领域,测试智能体的各项核心能力,提供智能体在进化前或特定阶段的能力快照。
这些评估可系统地分为外部任务解决评估内部智能体组件评估。外部任务解决评估衡量智能体在完成领域特定或跨领域任务时的端到端表现,内部能力评估则聚焦于智能体的基础组件,包括规划、工具使用、记忆管理、多智能体协作等。

外部任务解决评估

该类别评估智能体在各种真实或模拟环境中完成任务的端到端能力。在科学数据分析与机器学习工程领域,ScienceAgentBench 和 MLE-Bench 等基准测试智能体生成和执行数据分析代码、解决 Kaggle 风格问题的能力。对于网页搜索/浏览,如 WebShop、WebArena、X-WebAgentBench、Mind2Web 和 BrowseComp 等环境模拟真实网页交互、复杂浏览场景及安全约束下的任务完成。在软件工程领域,SWE-bench 系列利用真实 GitHub 问题评估智能体的代码修复能力。对于计算机使用交互,OSWorld 提供统一环境,涵盖多种桌面和网页应用的开放式任务。营销等专业领域也有如 xbench 等专用基准。除此之外,通用智能体基准如 AgentBench、GAIA 和 TheAgentCompany,评估智能体在多知识领域和专业任务中的广泛问题解决能力,模拟现实世界对通用 AI 助手的需求。

内部智能体组件评估

除了端到端任务完成外,评估智能体的核心基础能力也至关重要。这些基准测试智能体在自我进化过程中所需的基本能力。对于规划能力,PlanBench、Natural Plan、AutoPlanBench 和 ACPBench 等基准全面评估智能体理解动态环境、制定策略、分解复杂问题及在各类规划领域执行推理的能力。对于工具使用,ToolAlpaca 和 ToolBench 等简单基准测试基本选择与参数映射能力,更复杂的如 ToolSandbox、Seal-Tools、API-Bank、T-Eval、\(\tau\)-Bench、AceBench 等则模拟多轮交互、隐式状态依赖和嵌套调用等真实场景。记忆管理基准如 LTMbenchmark、MemoryAgentBench 和 StoryBench,评估智能体在多轮交互、动态场景和长距离依赖下的信息保持与利用能力。对于多智能体协作,MultiAgentBench 和 SwarmBench 等基准评估智能体在协作、沟通及群体智能涌现方面的能力,涵盖协作与竞争场景。

静态评估指标

静态评估常用指标包括准确率、成功率、进度率、完成率及各类领域特定性能指标(如 CodeBertScore、有效执行率、通过率、F1 分数)。这些指标为单次调用或固定任务集提供单一性能评分。

短期适应性评估

短期适应性评估超越了静态评估,关注智能体在较短时间或有限交互次数内的适应和提升能力。智能体可以通过多次尝试在同一任务实例上提升表现,或在同类任务的新实例上进行适应。本类别旨在捕捉自我进化智能体在相对一致或略有变化的任务分布下的即时适应和增量学习能力。

这些评估方案主要分为两类:(1)为传统基准增加时间维度;(2)专门设计支持短期动态学习的基准和指标。

img

增强型传统基准

许多研究利用现有基准,但引入新的维度以跟踪随时间变化的表现。通常通过分析智能体在迭代次数、步骤或样本数量上的表现变化。例如,ADAS 在 ARC 基准上评估智能体系统迭代次数与测试集准确率的关系;AWM 在 WebArena 地图测试集上研究在线评估过程中累计成功率,并用样本数量标记进化进度;WebEvolver 在 Mind2web-Live 上分析智能体自我提升迭代下的成功率。此方法可用于跟踪智能体在有限范围内的适应性。

内置动态评估基准

部分基准专为短期动态学习设计。例如,MemoryAgentBench 包含“测试时学习”(TTL)维度,评估智能体在单次交互会话中直接通过对话学习新任务的能力。TTL 通过多类分类和推荐两类任务进行评估,智能体需利用先前提供的信息(如上下文中的标注样本或长篇电影相关对话历史)完成新任务,如将句子映射到类别标签或推荐相关电影,从而考察其即时适应和知识获取能力。

短期适应性评估的指标与方法

短期适应性评估的主要指标和方法旨在量化智能体的适应性,包括:(1)按迭代步骤的成功率,跟踪智能体与环境交互或多次尝试任务时的性能提升;(2)学习曲线分析,展示在有限训练步骤、回合或交互下性能(如成功率、准确率)的变化;(3)适应速度,衡量智能体在短期内达到某一性能阈值或收敛到最优策略的速度。

短期适应性评估适用于评估自我进化智能体的初始学习能力和即时适应性,能有效展示智能体是否能从近期经验中学习并提升在域内任务上的表现。该类别在当前自我进化智能体研究中应用广泛,但由于时间窗口有限,难以评估长期知识保持(如缓解灾难性遗忘)和跨序列任务的终身学习能力。

长时序终身学习能力评估

长时序终身学习能力评估对于真正评估自我进化智能体至关重要,因为它关注智能体在多样化环境和长时间跨度内持续获取、保持和复用知识的能力。如表7所示,该范式主要聚焦于持续学习、知识积累,以及在多样且不断变化的任务或环境流中保持稳定表现。这是一个新兴但极为关键的领域,其独特挑战包括灾难性遗忘、跨异构任务的稳健知识迁移、长时间高效资源管理,以及在持续评估动态数据分布时缓解数据泄漏等问题。针对这些复杂性,已有专门基准开始涌现。

img

目前此类基准较少。LTMBenchmark 是专注于长期记忆(LTM)评估的专项基准,通过动态对话测试评估大语言模型智能体的记忆保持与持续学习能力,采用交错对话和受控干扰模拟真实世界的回忆挑战。关键指标包括任务准确率、记忆跨度加权的 LTM 得分,以及效率指标(测试数/小时、成本),用于跨架构对比。LifelongAgentBench 是另一项专为智能体终身学习设计的开创性基准,通过构建数据库(DB)、操作系统(OS)、知识图谱(KG)等领域的任务序列,要求智能体逐步积累并复用已获得的技能,从而系统跟踪长期学习轨迹中的性能提升与知识保持。此外,还有通过持续更新基准数据集或动态重构原有基准来评估自我进化智能体的方案,这有助于一定程度上缓解数据泄漏。例如 Benchmark Self-Evolving 提出通过迭代持续更新现有基准。初步实验表明,在此类动态基准场景下,模型性能可能随基准演化而下降,凸显了持续适应的难度。

长时序终身学习的评估指标不仅限于简单的成功率,还包括智能体能力随时间演化的量化指标,如遗忘(FGT)、反向迁移(BWT)、单位增益成本(Cost-per-Gain)。长期泛化指标可通过评估智能体在不断变化的分布外任务集上的表现,或衡量其在跨多个领域长期学习后仍能有效完成的任务广度。

长时序终身学习能力评估对于全面衡量自我进化智能体的核心承诺至关重要:即其持续学习、知识保持和长期泛化的能力。该范式对于评估智能体的保持性、对全新场景的泛化能力,以及长期运行的效率具有重要意义,也是自我进化智能体评估研究的关键前沿领域。

未来方向

个性化 AI 代理

随着自我进化代理的研究热度不断提升,部署个性化代理已成为研究社区的关键目标之一。例如,在聊天机器人、数字孪生和情感支持对话等应用中,核心挑战在于使 AI 代理能够在长期交互中准确捕捉并适应用户独特的行为模式或偏好。现有的个性化代理通常高度依赖标注数据和后训练方法。近期, 有研究提出了自生成偏好数据的方法,以实现 LLM 的快速个性化。TWIN-GPT 利用电子健康记录创建患者数字孪生,从而提升临床试验结果预测的准确性。然而,这些策略均假设 LLM 能持续获得高质量、大规模的用户数据。

在实际部署场景中,主要挑战仍是冷启动问题:代理需要在初始数据有限的情况下,逐步完善个性化理解,准确解读用户意图,并有效构建用户画像。此外,个性化规划与执行也面临诸多挑战,如长期记忆管理、外部工具集成以及个性化生成(确保输出始终符合用户事实和偏好)。同时,必须确保自我进化代理不会无意中强化或加剧现有偏见和刻板印象,这也是未来研究的关键方向。

随着个性化数据的融入,针对自我进化个性化代理的评估指标应超越传统的内在评估(如直接用 ROUGE、BLEU 等指标评估个性化文本质量)或外在评估(如通过推荐系统、分类任务等间接评估个性化效果)。传统个性化评估指标往往难以充分反映自我进化代理的动态变化。因此,未来研究亟需更轻量、适应性强的评估指标。同时,为更好地评估自我进化个性化代理,亟需灵活、动态的基准测试,能够准确评估代理在自我进化过程中,尤其是处理长尾个性化数据时的表现。

泛化能力

自我进化代理在实现跨多样任务领域和环境的稳健泛化方面也面临诸多挑战。专业化与广泛适应性的根本矛盾仍是该领域最紧迫的问题之一,对可扩展性、知识迁移和协同智能具有重要影响。

可扩展架构设计: 构建具备泛化能力的自我进化代理的核心挑战在于设计可扩展的架构,使其在复杂性和任务范围不断扩展时仍能保持优异性能。当前的代理系统常常在专业化与泛化之间权衡,针对特定任务优化的代理难以将已学行为迁移到新环境中。此外,基于大语言模型的代理在动态推理时的计算成本会随着适应机制复杂度的提升而非线性增长,这对实际资源限制下的泛化能力提出了现实约束。近期研究表明,具备反思和记忆增强能力的自我进化代理在提升泛化性方面展现出巨大潜力,尤其是在小型、资源受限的模型中表现突出。然而,这些方法在应对需要长期持续适应的复杂真实场景时仍存在诸多局限。

跨领域适应: 实现跨领域泛化是自我进化代理面临的关键前沿问题。现有方法多依赖于领域特定的微调,导致代理在不重新训练的情况下难以适应新环境。近期在测试时扩展和推理时自适应方面的进展为提升跨领域泛化能力提供了有前景的途径。这些技术允许代理在推理过程中动态分配额外的计算资源以应对陌生场景,无需增加模型参数。此外,元学习策略在促进代理对新领域的快速少样本适应方面表现出显著潜力。然而,这些方法的有效性高度依赖于代理能否准确判断何时需要额外计算资源,并高效地在多样化推理任务间分配这些资源。

持续学习与灾难性遗忘: 自我进化代理必须在不断适应新任务的同时,保留先前获得的知识,这一挑战因 LLM 持续记忆中的灾难性遗忘现象而加剧。基础模型代理中的稳定性-可塑性困境尤为突出,因为每次新任务都重新训练的计算成本极高。近期研究探索了参数高效微调方法、选择性记忆机制和增量学习策略,以在保持适应性的同时缓解灾难性遗忘。然而,在资源受限或需管理严格隐私流数据的场景下,实现效率与防止模型漂移的最佳平衡仍是重大开放问题。

知识迁移能力: 近期研究发现,AI 代理之间的知识迁移存在关键局限。指出当前代理的知识整合与迁移能力仍需大幅优化。特别是,发现基于 LLM 的代理往往无法有效将交互中获得的新知识传播给其他代理,限制了协作潜力。此外,揭示基础模型可能过度依赖浅层模式匹配,而非构建稳健且可迁移的内部世界模型。这些发现指向未来几个重要研究方向:1)深入理解一个代理获得的知识在何种条件下能可靠泛化并传递给其他代理;2)开发方法量化代理知识迁移的局限性,有助于明确协作瓶颈;3)建立显式机制,鼓励形成稳健、可泛化的世界模型,将显著提升自我进化代理的协作效能。

安全与可控代理

随着自主 AI 代理在学习、进化和独立执行复杂任务方面能力的不断提升,越来越多的代理研究开始关注如何部署更安全、可控的代理。这些安全问题主要源于用户相关风险(如模糊或误导性指令导致代理执行有害行为)以及环境风险(如接触到恶意内容,例如钓鱼网站链接)。

许多研究致力于解决代理自动适应过程中的安全隐患。例如,TrustAgent 通过预规划、规划中和后规划策略促进更安全的代理行为。然而,正如相关研究指出,目前基于大语言模型的代理仍难以准确区分必要的敏感信息与无关信息。主要挑战在于精准识别和理解任务相关与无关的信息。此外,当目标涉及欺骗性或不道德方法时,如何管理代理行为也面临困难,因为持续学习的不确定性加剧了可控代理部署的安全挑战。这种不确定性同样体现在语境模糊和记忆模块设计不佳等方面。因此,部署可靠、可控且安全的自我进化系统已成为关键问题。未来研究应关注收集更大规模、更具多样性的真实场景数据,以支持安全行为的全面学习。进一步完善代理宪章,制定更清晰易懂的规则和案例库也至关重要。此外,探索更安全的训练算法,并深入研究隐私保护措施对代理效率的影响,是实现自主 AI 代理更平衡、安全部署的必要步骤。

多智能体生态系统

多智能体自我进化系统面临诸多独特挑战,亟需进一步探索。

个体与集体推理的平衡: 近期研究强调,在多智能体环境中平衡独立推理与高效群体决策的难度。尽管集体讨论能显著提升诊断推理能力,但智能体往往容易过度依赖群体共识,导致独立推理能力减弱。为缓解这一问题,未来研究应探索动态机制,调整个体与集体输入的相对权重。此类方法有助于防止决策过程被单一或少数智能体主导,最终促进稳健、均衡的共识构建与创新。此外,开发显式知识库和标准化更新方法——充分利用智能体的成功与失败经验——可进一步提升智能体的自我进化能力,并强化其在协作环境中的独立推理贡献。

高效框架与动态评估: 另一项关键挑战在于开发高效算法和自适应框架,使智能体能够高效协作,同时保留各自的决策优势。已有研究提出了自适应奖励模型和优化的动态网络结构,这些方法可显著提升智能体间的协作式自我改进。然而,当前主要缺口在于缺乏明确机制,支持智能体动态管理和更新知识。解决这一问题需要新的框架,显式整合持续学习和自适应协作机制。此外,现有多智能体评估基准多为静态,难以反映智能体角色的长期适应性和持续进化。未来基准应引入动态评估方法,体现智能体系统中的持续适应、交互演化和多样化贡献,从而为自我进化智能体提供更全面的评估指标。

结论

自我进化智能体的出现标志着人工智能领域的范式转变,推动其从静态、单一模型迈向能够持续学习和适应的动态智能体系统。随着语言智能体在开放式、交互性环境中的广泛应用,智能体具备进化能力——能够根据新任务、新知识和反馈不断调整推理过程、工具和行为——已成为构建新一代智能体系统的关键。在本综述中,我们首次系统性地回顾了自我进化智能体,围绕三个基础性问题进行组织:智能体的哪些方面应当进化、进化应在何时发生,以及如何有效实现进化过程。此外,我们还讨论了用于评估自我进化智能体进展的方法,包括相关指标和基准测试,并介绍了相应的应用场景与未来发展方向。展望未来,实现自我进化智能体的全部潜力对于人工超级智能(ASI)的奠基至关重要。智能体的进化将依赖于模型、数据、算法和评估实践等方面的重大突破。解决诸如灾难性遗忘、智能体自主进化过程中的人类偏好对齐,以及智能体与环境的协同进化等问题,将是实现既具适应性又值得信赖、符合人类价值观的智能体的关键。我们希望本综述能够为研究者和从业者提供设计、分析和推动自我进化智能体发展的基础框架。

posted @ 2025-08-22 14:24  一介布衣、  阅读(157)  评论(0)    收藏  举报