From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

论文阅读:从存储到经验——LLM Agent 记忆机制的演化综述

论文标题:From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms
作者:Jinghao Luo, Yuchen Tian, Chuxue Cao, Ziyang Luo, Hongzhan Lin, Kaixin Li, Chuyi Kong, Ruichao Yang, Jing Ma
发表位置:ACL 2026 Findings
arXiv 编号:2605.06716
原文链接:https://arxiv.org/abs/2605.06716
主题:LLM Agent、Memory Mechanism、Storage、Reflection、Experience、Continual Learning
核心问题:LLM Agent 的记忆机制如何从单纯保存历史轨迹,逐步演化为能够提炼经验、指导未来行为的机制?


1. 论文要解决什么问题?

LLM Agent 相比普通大语言模型,多了工具调用、规划和环境交互能力。但这也带来一个核心矛盾:大语言模型本身通常是“无状态”的,而 Agent 执行任务时却需要跨越多个步骤、多个环境反馈、甚至长期交互来保持一致性。

如果没有记忆机制,Agent 容易出现几类问题:

  1. 长程任务中逻辑不连续:模型在局部上下文中看似合理,但跨越较长任务链后容易遗忘早期目标或状态。
  2. 动态环境中记忆过期:过去有效的信息,在环境变化后可能变成错误信息,但仍然会因为语义相似而被检索出来。
  3. 无法从历史中持续学习:Agent 可能反复犯同类错误,只是在保存交互日志,而没有把历史转化为可复用的经验。

论文指出,当前关于 LLM Agent 记忆机制的研究存在两个主要问题:一方面,研究范式较为分散,有的偏向操作系统式的存储管理,有的偏向认知科学中的人类记忆模拟;另一方面,已有工作虽然提出了许多具体技术,但缺少一个统一视角来解释这些技术如何逐步演化。

因此,论文提出用“演化”的视角理解 LLM Agent 记忆机制,将其概括为三个阶段:

阶段 中文理解 核心目标
Storage 存储 尽可能忠实地保存历史交互轨迹
Reflection 反思 对历史轨迹进行评价、纠错和提炼
Experience 经验 从多个轨迹中抽象出可迁移的规则、技能或策略

这三个阶段并不是彼此完全替代的关系。一个系统可能同时保留存储、反思和经验的特征,只是其记忆机制的核心作用会从“保存”逐渐走向“抽象”。

image


2. 背景:论文如何定义 LLM Agent 记忆?

论文首先形式化描述了 LLM Agent 的工作过程。

一个 LLM Agent 可以看作一个与动态环境交互的决策实体。在时间步 (t),Agent 接收环境观测 (o_t),从记忆模块 (M) 中检索与当前情境相关的记忆 (m_t),然后基于系统指令、当前观测和检索到的记忆生成动作。

这里论文特别区分了两个概念:

概念 含义
全局记忆库 (M) Agent 外部化保存的整体记忆仓库
当前检索记忆 (m_t) 在某个时间步被取出、用于当前决策的记忆片段

论文将 LLM Agent memory 定义为一种外部化仓库,它连接了模型冻结的参数知识与不断变化的环境动态。也就是说,记忆不是模型参数本身,而是 Agent 在运行过程中用于补充、修正、延展自身行为的信息结构。

基于信息抽象程度和认知处理层次,论文将记忆机制划分为 Storage、Reflection 和 Experience 三层。


3. 三个阶段:Storage、Reflection、Experience

3.1 Storage:保存轨迹

Storage 是最基础的阶段。它的目标是尽可能保留 Agent 与环境交互的历史轨迹。

论文将一条轨迹 (\tau) 定义为一个任务会话中的 observation-action 序列:

τ = <(o1, a1), ..., (oT, aT)>

Storage 阶段的记忆库可以理解为许多历史轨迹的集合。它强调的是“忠实保存”,也就是让记忆条目和执行轨迹之间保持较强的一一对应关系。

从技术形态看,论文将 Storage 进一步分为三类:

类型 说明 主要问题
Linear Storage 按时间顺序保存交互内容,类似线性上下文或 FIFO 队列 受上下文窗口限制明显
Vector Storage 将轨迹编码到向量空间,通过语义相似度检索 容量扩大,但检索可能模糊
Structured Storage 用表格、层级、图结构等显式结构组织记忆 需要更复杂的组织和更新机制

Storage 阶段解决的是“记不住”的问题,但它并不直接解决“记忆质量”的问题。原始轨迹中可能包含幻觉、错误推理、无效尝试和噪声。如果 Agent 只是保存这些轨迹,后续检索时仍可能被错误信息误导。

3.2 Reflection:从保存到纠错

Reflection 阶段的关键转变是:记忆不再只是被动记录,而开始承担“批评者”的角色。

论文将 Reflection 描述为一种语义转换:它把原始轨迹转化为经过评价、纠错或压缩的记忆单元。相比 Storage 追求原始保真度,Reflection 更关注记忆的质量密度。

Reflection 可以分为三种主要形式:

类型 说明
Introspection Agent 利用模型自身知识,对过去轨迹进行自我批评、纠错和压缩
Environment Agent 利用外部环境反馈来校准记忆,缓解幻觉问题
Coordination 多个 Agent 通过角色分工、共识形成等方式进行协同反思

Reflection 的意义在于,它把“历史记录”变成“经过处理的参考”。例如,一次失败任务不只是被存下来,而是被分析出失败原因;一次成功路径也不只是被复述,而是被提炼为之后可参考的策略。

不过,论文也指出 Reflection 仍然存在不足:反思后的记忆通常仍然依赖具体上下文,且比较碎片化。当新任务与旧任务只存在部分相似时,简单检索某条反思记忆仍可能带来较高推理负担,甚至因为上下文细微变化而导致错误迁移。

3.3 Experience:从单条轨迹到跨轨迹抽象

Experience 是论文提出的最高层阶段。它不再只关注某条轨迹是否被保存、某次失败是否被纠正,而是关注如何从一组相似轨迹中抽象出更通用的规则、技能或策略。

论文用 Minimum Description Length 的思想解释 Experience:如果一批轨迹存在共同结构,那么系统不应反复保存所有细节,而应压缩出更短、更通用的表示。

Experience 的核心是跨轨迹抽象。它从多个交互轨迹中提炼出可以作为 policy prior 的知识,使 Agent 能够在未知任务或新环境中获得前瞻性指导。

论文将 Experience 分为三类:

类型 说明
Explicit Experience 显式经验,以自然语言规则、可编辑策略、程序、技能库等形式存在
Implicit Experience 隐式经验,将经验内化进模型参数或隐藏层表示中
Hybrid Experience 混合经验,先用显式经验作为高容量缓存,再周期性压缩进模型参数

这一阶段的重点已经不是“如何找到相似历史”,而是“如何得到能迁移到新场景的经验”。


4. 为什么记忆机制会演化?

论文在第三节回答 RQ1:为什么 LLM Agent 的记忆机制会从 Storage 走向 Reflection,再走向 Experience?

它总结了三个驱动力:长程一致性、动态环境和持续学习。

4.1 长程一致性

在短上下文内,大语言模型通常可以保持局部连贯。但在多步骤任务中,Agent 可能出现冗余探索、错误积累和推理中断。论文将长程一致性拆成两类:

一致性类型 说明
状态一致性 Agent 需要记住自身推理状态、环境状态和用户/角色状态
目标一致性 Agent 需要避免只追求局部合理动作,而偏离全局目标

记忆机制首先要帮助 Agent 维持内部状态,使其不会在任务中途失去上下文;同时,它还要帮助 Agent 保持目标稳定,尤其是在多 Agent 系统中,共享目标记忆可以将孤立行为转化为协同行动。

4.2 动态环境

论文认为,动态环境是推动记忆机制继续演化的重要原因。

在真实环境中,知识通常不是永久有效的。某个过去正确的策略,随着时间推移可能变得无效。更棘手的是,过期信息在语义上仍可能与当前问题高度相似,因此仍会被检索系统排在前列。

这要求记忆机制不能只做静态保存,而要具备时间感知、衰减策略和更灵活的检索机制。

另外,真实环境中的因果结构也更复杂。一个动作的影响可能延迟出现,也可能通过连锁反应影响后续状态。因此,记忆机制需要从简单记录交互,进一步走向对跨时间步骤因果依赖的建模。

image

4.3 持续学习

持续学习是论文认为更高层的需求。

如果 Agent 无法把历史交互转化为可复用知识,它就会不断重复试错。早期记忆机制通过向量化等方式扩大存储容量,但无限扩张的记忆并不一定带来更好表现。错误记忆可能传播,噪声也可能污染后续学习。

因此,记忆机制需要解决两个问题:

  1. 如何选择性地增加和删除记忆
  2. 如何把大量轨迹压缩成更高密度、更可复用的经验

这也解释了为什么 Experience 阶段会成为演化方向:它不满足于保存历史,而要让 Agent 从历史中抽象出可迁移的行为模式。


5. 记忆机制如何演化?

论文第四节回答 RQ2:记忆机制如何演化?整体路径可以概括为:

Storage:忠实记录
    ↓
Reflection:评价、纠错、去噪
    ↓
Experience:跨轨迹抽象,形成可迁移经验

5.1 从 Storage 到 Reflection

Storage 解决的是容量与保存问题,但它默认“保存下来的东西有价值”。Reflection 则进一步意识到:历史轨迹中既有有用信息,也有幻觉、错误和无效尝试。

所以 Reflection 的核心变化是从“保真”转向“提纯”。记忆库不再只是轨迹仓库,而变成一个经过批判、校准和压缩的知识资源。

5.2 从 Reflection 到 Experience

Reflection 虽然提升了记忆质量,但很多反思记忆仍然和具体任务绑定。例如,某次任务失败的原因可能只适用于当时的状态、工具和环境。

Experience 则试图从多条轨迹中找到更一般的模式。它把经验从具体场景中剥离出来,使其能够指导未见过的任务。

论文用表格区分了 Reflection 与 Experience:

维度 Reflection Experience
功能形式 单条轨迹内部的转换 多条轨迹之间的归纳
输出形式 与原任务上下文相关的精炼记忆单元 脱离具体场景的通用规则或技能
检索依赖 推理时检索相似过去任务 可作为 policy prior 用于未见场景
代表性方向 Reflexion、CLIN、AgentFold 等 FLEX、MemSkill、SkillRL 等

这个对比说明,Experience 的目标不是把反思做得更细,而是改变记忆的作用方式:从“帮助回忆相似任务”变成“形成面向未来决策的先验”。


6. Experience 阶段带来什么变化?

论文第五节回答 RQ3:Experience 带来了哪些新的变化?它重点讨论两个机制:主动探索和跨轨迹抽象。

6.1 Active Exploration:记忆驱动的主动探索

在 Storage 和 Reflection 阶段,Agent 更多是在任务结束后保存或修正记忆。而在 Experience 阶段,记忆开始反过来影响探索方向。

主动探索意味着 Agent 不只是被动记录环境,而是基于已有经验,有目标地收集新经验。论文将探索机制分为三类:

探索机制 说明
Reward-based 通过奖励信号引导 Agent 探索更有价值的状态空间
Curriculum-based 动态生成难度递增的任务序列
Reuse-based 复用和抽象历史轨迹,提高探索效率

论文还从探索范围上划分了三个维度:

维度 说明
Breadth 扩大 Agent 在陌生环境中的能力边界
Depth 在垂直任务中提取更高阶技能
Strategy 优化长期规划中的决策路径

在这里,记忆不是任务后的附属记录,而是探索过程本身的一部分:过去经验指导探索,新探索结果又被抽象回记忆。

6.2 Cross-Trajectory Abstraction:跨轨迹抽象

跨轨迹抽象是 Experience 阶段的另一个核心机制。它将分散的、事件式的轨迹压缩为稳定的策略先验,使 Agent 不必依赖某条具体历史轨迹,也能在新任务中获得指导。

论文将抽象机制概括为几种形式:

抽象机制 说明
Contrastive Induction 对比成功与失败轨迹,明确策略边界
Action Distillation 将细粒度行为序列蒸馏为更高阶思维模式
Code Encapsulation 将重复行为模式封装为可复用程序函数
Gradient Internalization 通过微调等方式将轨迹组内化到模型参数中

论文还根据抽象结果与原始轨迹的距离,将经验抽象分为三个粒度:

抽象粒度 说明
Shallow Level 保留部分语义逻辑,用自然语言规则表示经验
Intermediate Level 去掉自然语言冗余,提取可执行的模块化骨架
Deep Level 将轨迹分布压缩进模型权重,形成决策直觉

image


7. 未来方向

论文第六节讨论了 LLM Agent 记忆机制的未来方向,主要包括五点。

7.1 主动记忆感知

一些记忆机制仍采用被动触发方式,导致 Agent 无差别地检索大量记忆。无关或过期记忆可能干扰推理连贯性。

未来的记忆机制应能自主判断:当前任务是否需要引入记忆?需要哪类记忆?记忆应当成为按需调用的资源,而不是每次都被大量检索的负担。

7.2 工作记忆组织

随着任务复杂度和时间跨度增加,Agent 需要更好地组织工作记忆。论文强调,Agent 应该能把过去轨迹重构为动态、可塑的记忆区间,以支持更有效的注意力分配。

未来工作可能关注区间记忆隔离、关键决策节点的回溯整合,以及工作记忆的自适应剪枝。

7.3 Experience 阶段的 Benchmark

现有数据集更多评估 Storage 和 Reflection 阶段的检索、去噪能力,而对 Experience 阶段的抽象与泛化能力评估不足。

论文认为,Experience 的评估与 Agent 的元学习能力、自我演化能力密切相关,因此需要新的 benchmark 来覆盖经验的生成、复用、更新和泛化过程。

7.4 分布式共享记忆

多 Agent 协作是走向更复杂组织形态的重要路径。当前共享记忆主要依赖显式对话,但这会受到通信带宽限制,也容易引入噪声。

论文提出,未来应关注共识记忆系统,使个体视角和集体知识能够高效同步,从而支持更灵活的社会化经验演化。

7.5 多模态记忆

多模态记忆要求将视觉状态、语言推理和其他感知模态整合为具有统一时间性和语义性的记忆单元。

对于具身智能尤其如此:Agent 的内部世界模型是否完整,会直接影响规划和执行。未来研究需要处理多模态抽象、跨模态时间对齐和记忆高效整合等问题。


8. 论文指出的局限性

论文也明确说明了自身局限。

第一,本文采用的是定性分析框架,没有给出不同记忆机制之间的直接量化性能比较。原因在于 Storage、Reflection 和 Experience 三个阶段的设计目标不同,目前也缺少统一 benchmark 能够横跨所有阶段进行公平评测。

第二,Experience 阶段与已有学习范式存在交叉,尤其是与微调、强化学习和元学习有关。论文并不把 Experience 描述为一种全新的学习范式,而是强调这些已有技术如何在以记忆为中心的 LLM Agent 架构中发挥作用。

第三,记忆机制研究在 2024—2025 年增长很快,而 Experience 阶段作为较清晰方向出现得更晚。因此,综述在时间覆盖上可能存在一定偏向:早期重要工作可能没有被充分强调,一些较新的预印本也尚未经过正式同行评审。


9. 总结

这篇综述的核心贡献是用“演化路径”重新组织 LLM Agent 记忆机制研究。它不是简单按照存储介质、检索方式或记忆类型做横向分类,而是提出一个纵向视角:

Storage 解决“如何保存历史”
Reflection 解决“如何提高记忆质量”
Experience 解决“如何从历史中抽象可迁移经验”

因此,论文对“记忆”的理解并不止于容量扩展。记忆机制的演化,本质上是信息密度提升和认知抽象层次变化的过程。

在 Storage 阶段,Agent 保存历史;在 Reflection 阶段,Agent 修正历史;在 Experience 阶段,Agent 从历史中归纳出未来可用的行为经验。论文认为,主动探索和跨轨迹抽象共同构成 Experience 阶段的关键动力,使 LLM Agent 有可能从被动执行系统走向具备持续自我演化能力的系统。

参考

posted @ 2026-06-05 15:33  YourF4u1t  阅读(13)  评论(0)    收藏  举报