Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

论文阅读:Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

论文标题:Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
作者:Yuanzhe Hu, Yu Wang, Julian McAuley
发表位置:ICLR 2026 Conference Paper / arXiv preprint
arXiv 编号:2507.05257v3
原文链接:https://arxiv.org/pdf/2507.05257
主题:LLM Agent、长期记忆、记忆评测、多轮交互、RAG、长上下文
核心问题:如何系统评估一个带有记忆机制的 LLM Agent 是否真的能在多轮、增量式交互中记住、更新、检索和遗忘信息?


1. 论文要解决什么问题?

近年来,LLM Agent 的评测主要集中在推理、规划、工具调用、代码生成等能力上。例如,一个 Agent 能否完成网页操作、编写软件、解决复杂任务,已经有不少基准可以测试。但论文指出,Agent 的另一个关键能力——记忆能力——仍然缺少系统评测。

这里的“记忆”并不只是把长文本塞进上下文窗口。论文将带有记忆机制的 Agent 称为 Memory Agent,其记忆可以表现为模型参数、向量、文本历史、外部数据库等形式。本文主要关注现实系统中更常见的两类:基于文本历史的记忆,以及基于外部数据库或检索模块的记忆。

论文认为,Memory Agent 的核心挑战在于:真实交互不是一次性给出完整长文档,而是信息随着用户会话不断到来。Agent 需要在多轮交互中逐步吸收信息、压缩信息、更新记忆,并在后续问题中正确使用这些记忆。因此,静态长上下文问答并不能完全代表 Memory Agent 的真实使用方式。


2. Memory Agent 需要具备的四类记忆能力

论文基于记忆科学和认知科学中的相关理论,将 Memory Agent 需要具备的能力归纳为四类:

能力 英文缩写 含义
准确检索 AR, Accurate Retrieval 面对查询时,从长期历史中找到正确片段或相关信息
测试时学习 TTL, Test-Time Learning 在部署过程中通过交互学习新的行为、规则或技能,而不需要额外训练
长程理解 LRU, Long-Range Understanding 整合分布在超长历史中的信息,形成对整个序列的全局理解
选择性遗忘 SF, Selective Forgetting 当旧信息被新信息覆盖、修正或删除时,能够以更新后的记忆状态作答

image

这四类能力的划分是全文的基础。论文后续构造的 benchmark、数据集选择、实验分析,都是围绕这四个维度展开的。


3. 为什么已有 benchmark 不够?

论文首先区分了两类容易混淆的概念:长上下文记忆

长上下文评测通常把完整材料一次性输入模型,然后要求模型回答问题。这种设置可以测试模型在一个大窗口内处理长文本的能力,但它并不等价于 Memory Agent 的记忆能力。原因在于,记忆通常是对过去经历的压缩、提炼和更新,而不是对全部历史内容的原样保存。

论文指出,已有数据集大致存在几类不足:

  1. 早期长上下文或记忆相关数据集的上下文长度较短,已经不足以挑战当前长上下文模型。
  2. 较新的长上下文数据集虽然上下文更长,但多数是静态阅读理解或长文档 QA,不符合 Memory Agent 增量式、多轮交互的特点。
  3. 面向 RAG 的 benchmark 通常关注固定知识库上的检索和 grounding,而不强调持续更新、覆盖旧知识、选择性遗忘等问题。
  4. 面向 memory agent 的数据集虽然已经出现,但在主题多样性、交互真实性,以及四类核心能力覆盖上仍不完整。

论文用一个表格比较了 MemoryAgentBench 与已有长期记忆 QA benchmark:

Benchmark #Q Context Depth AR TTL LRU SF LCA RAG AM
MemoryBank 194 5k
LoCoMo 7512 10k
PerLTQA 8593 1M*
RealTalk 728 375k*
LongMemEval 500 115k, 1.5M
StoryBench 86 -
MemoryAgentBench 2071 103k–1.44M

其中,LCA 表示 Long-Context Agents,RAG 表示 RAG Agents,AM 表示 Agentic Memory。论文强调,MemoryAgentBench 的目标不是只测试某一种记忆实现,而是覆盖不同类型的 memory agent,并在四类核心能力上进行统一评测。


4. MemoryAgentBench 的整体设计

MemoryAgentBench 的核心思路是:将现有长上下文数据集和新构造的数据集转化成多轮输入格式,从而模拟 Memory Agent 在真实交互中逐步接收信息的过程。

论文将每个任务统一表示为:

c1, c2, ..., cn   # 按时间顺序输入的 chunks
q1, q2, ..., qm   # 问题
a1, a2, ..., am   # 答案

其中,每个 chunk 都会被包装成一个用户消息,并带有类似“请记住这些内容,之后我会提问”的指令。Agent 需要一段一段地接收这些 chunk,将其吸收到记忆中,并在所有输入完成之后回答相关问题。

这个协议有两个重要特点:

第一,它显式触发 Agent 的记忆机制。相比直接把原始长文本输入模型,论文使用模拟的 User-Assistant 对话,让 Agent 在交互过程中逐步“记住”内容。

第二,它允许一个长上下文对应多个问题。论文指出,随着上下文长度越来越长,如果为每一个问题都重新注入百万级 token,会非常低效。因此,在 EventQA、FactConsolidation、LongMemEval(S*) 等设置中,一个长历史会对应多个问题,从而提高评测效率。


5. 四类能力对应的数据集

论文将 MemoryAgentBench 的任务划分为四大类,每类对应不同的数据集与指标。

能力类别 数据集 指标 平均上下文长度 任务说明
Accurate Retrieval SH-Doc QA Accuracy 197K 单跳 gold passage 检索 QA
Accurate Retrieval MH-Doc QA Accuracy 421K 多跳 gold passage 检索 QA
Accurate Retrieval LongMemEval(S*) Accuracy 355K 基于对话历史的 QA
Accurate Retrieval EventQA Accuracy 534K 角色事件相关的小说多选 QA
Test-Time Learning BANKING77 / CLINC150 / NLU / TREC Accuracy 103K 意图分类或问题类型分类
Test-Time Learning Movie Recommendation Recall@5 1.44M 根据电影相关对话进行推荐
Long Range Understanding ∞Bench-Sum F1-Score 172K 替换实体后的小说摘要
Long Range Understanding Detective QA Accuracy 124K 侦探小说上的长程推理 QA
Selective Forgetting FactConsolidation-SH Accuracy 262K 单跳事实更新判断
Selective Forgetting FactConsolidation-MH Accuracy 262K 多跳事实更新判断

5.1 Accurate Retrieval:准确检索

准确检索关注 Agent 是否能从长历史中找到回答问题所需的片段。论文使用了文档问答、LongMemEval(S*),并新构造了 EventQA。

EventQA 的任务形式比较特别:Agent 需要阅读小说,并根据最多五个之前发生的事件,从多个候选项中选择正确的后续事件。它考察的不是简单关键词匹配,而是 Agent 是否能记住人物经历和时间顺序。

5.2 Test-Time Learning:测试时学习

测试时学习关注 Agent 是否能在部署过程中从交互历史中学习新规则。

论文使用两类任务:

一类是多分类任务,例如 BANKING77、CLINC150、NLU、TREC-Coarse 和 TREC-Fine。Agent 需要根据历史中的大量带标签样本,学会将新句子映射到正确类别。

另一类是电影推荐任务。Agent 会接收大量电影相关对话,然后根据长历史推荐相关电影。这个任务的平均上下文长度达到 1.44M,是整个 benchmark 中最长的一类。

5.3 Long-Range Understanding:长程理解

长程理解关注 Agent 是否能整合分布在长历史不同位置的信息。

论文使用两个任务:∞Bench-Sum 和 Detective QA。前者要求 Agent 分析小说情节和人物并生成较长摘要;后者要求 Agent 在侦探小说中进行跨长文本范围的推理。与准确检索不同,长程理解并不只是找到一个片段,而是需要对全局内容形成整合性理解。

5.4 Selective Forgetting:选择性遗忘

选择性遗忘是论文中特别强调的一类能力。真实场景中,用户信息会发生变化,旧事实可能被新事实覆盖。Agent 如果只记住最早出现的信息,或者无法处理冲突,就会给出过时答案。

为此,论文构造了 FactConsolidation。它基于 MQUAKE 中的 counterfactual edit pairs,每组包含一个原始事实和一个与之矛盾的改写事实。改写后的新事实会出现在旧事实之后,从而模拟真实的信息更新场景。

任务分为两类:

  • FactConsolidation-SH:单跳事实回忆;
  • FactConsolidation-MH:需要跨多个事实进行多跳推理。

论文在提示中明确告诉 Agent:事实带有序号,序号越大表示事实越新;当事实冲突时,应该使用更新的事实。这意味着,如果 Agent 仍然失败,问题就不只是提示不清楚,而是记忆更新和长程一致性本身仍然困难。


6. 被评测的 Memory Agent 类型

论文评测了三大类 agent。

6.1 Long-Context Agents

Long-Context Agent 直接依赖模型的长上下文窗口。它会把输入 chunk 按顺序放进上下文缓冲区,当超过窗口限制时,用 FIFO 的方式移除最早的 chunk。

这种方式简单直接,优势是可以让模型在当前窗口内整体处理信息;缺点是窗口仍然有限,一旦历史超过窗口,早期内容就会被丢弃。

6.2 RAG Agents

RAG Agent 将过去信息存入外部 memory pool,在回答问题时检索相关内容再交给 LLM。论文进一步将 RAG Agent 分为三类:

类型 代表方法
Simple RAG BM25
Embedding-based RAG Contriever, Text-Embed-3-Small, Text-Embed-3-Large, Qwen3-Embedding-4B
Structure-Augmented RAG RAPTOR, GraphRAG, MemoRAG, HippoRAG-v2, Mem0, Cognee, Zep

RAG 的优势在于检索局部相关片段,因此在准确检索任务上往往有效。但论文指出,对于需要整体理解、跨长历史学习、或处理复杂更新的问题,单次 top-k 检索容易遗漏必要信息。

6.3 Agentic Memory Agents

Agentic Memory Agent 不只是一次性检索,而是通过更具决策性的流程进行查询、检索、反思和多轮推理。论文评测的代表方法包括 Self-RAG、MemGPT 和 MIRIX。

这类方法理论上更适合处理模糊查询或多步问题,但论文实验显示,它们仍然受到 RAG 式记忆机制的基本限制:如果关键信息无法通过局部检索暴露出来,Agent 仍然难以形成全局理解或完成测试时学习。


7. 实验设置与整体结果

论文在不同任务上比较了长上下文模型、RAG 系统、结构增强 RAG、商业 memory agent,以及 agentic memory 方法。对于未特别说明的 RAG agent 和商业 memory agent,论文使用 GPT-4o-mini 作为 backbone,并将 GPT-4o-mini 的表现作为参考。

整体结果可以概括为三点。

7.1 RAG 方法在 Accurate Retrieval 上更有优势

在准确检索类任务中,许多 RAG Agent 的表现优于 GPT-4o-mini 这个 backbone。论文认为这符合直觉:如果问题只需要找到少量关键片段,RAG 的检索机制可以有效缩小搜索范围。

例如,在 Table 3 中,BM25 在 AR 平均分上达到 60.5,HippoRAG-v2 达到 65.1,MIRIX(4.1-mini) 达到 63.0,而 GPT-4o-mini 的 AR 平均分为 49.2。

7.2 长上下文模型在 TTL 和 LRU 上更有优势

在测试时学习和长程理解任务上,长上下文模型整体更占优势。论文认为,这反映了 RAG 方法和商业 memory agent 的一个根本限制:它们通常只取回局部片段,而测试时学习和长程理解往往需要跨整个输入进行学习和整合。

例如,Claude-3.7-Sonnet 在 LRU 平均分上达到 62.2,是 Table 3 中较高的结果;而不少 RAG 或 agentic memory 方法在 ∞Bench-Sum 等需要全局整合的任务上表现较低。

7.3 选择性遗忘仍然是所有方法的难点

选择性遗忘是论文实验中最困难的能力之一。论文指出,所有方法在多跳选择性遗忘任务上都表现很差,最高也只有 7% accuracy。单跳情况下,长上下文 agent 能取得相对合理的结果,但多跳事实更新仍然困难。

这说明,Memory Agent 不仅要“记得住”,还要“知道该用哪一个版本的记忆”。当新旧事实冲突,并且问题需要多步推理时,现有方法很容易混用旧信息或无法稳定定位最新事实。


8. 消融实验与分析

论文进一步从 chunk size、retrieval top-k、backbone model 和 FactConsolidation 数据集验证等方面进行了分析。

8.1 Chunk size 的影响

论文固定 retrieval top-k 为 10,改变输入 chunk size。结果显示,在 Accurate Retrieval 任务中,如果资源允许,使用更小的 chunk size 并增加记忆构建阶段的检索调用,有助于提升性能。原因是更细粒度的切分可以提高检索片段与问题之间的相关性。

但在 Long-Range Understanding 任务中,改变 chunk size 反而可能伤害性能。论文解释说,这类任务需要整合大范围、连贯上下文,而 RAG 本身并不擅长用局部片段完成全局理解。

image

8.2 Retrieval top-k 的影响

论文还比较了 top-k 为 2、5、10 时的结果。总体上,增加检索 chunk 数量通常能提升多数任务表现。但论文也指出,当 chunk size 为 4096 时,检索 10 个 chunk 已经接近 40k token,对模型容量提出较高要求。因此,论文没有继续评估 top-k 为 20 的设置。

image

8.3 Backbone model 的影响

论文选择若干代表性 memory agent,并在不同 backbone model 上进行比较。结果显示,对 RAG Agent 来说,当 backbone 已经足够强时,继续升级模型带来的收益有限;而对 MIRIX 这类 Agentic Memory 方法,换用更强的 GPT-4.1-mini 后性能提升较明显。

这说明,不同记忆机制的瓶颈并不相同。普通 RAG 的瓶颈可能更多在检索与信息组织;而 agentic memory 方法可能还受到 backbone 推理和决策能力的影响。

8.4 FactConsolidation 的可解性验证

由于 FactConsolidation 上很多模型表现极低,论文进一步使用更短上下文版本和更强的 reasoning model 进行验证。

结果显示,在 6K 版本的 FactCon-SH 上,GPT-4o 和 o4-mini 都能取得较好表现;在 6K 版本的 FactCon-MH 上,o4-mini 也能达到较高分数。但当上下文长度增加到 32K,性能明显下降。

论文据此说明,FactConsolidation 并不是不可解任务;问题在于,当历史变长、冲突事实变多、且需要多跳推理时,当前 memory agent 仍然缺乏稳定处理长程事实更新的能力。


9. 论文结论与局限

论文提出了 MemoryAgentBench,用于统一评估 Memory Agent 的四类关键能力:准确检索、测试时学习、长程理解和选择性遗忘。它通过重构已有长上下文数据集,并新增 EventQA 和 FactConsolidation,使评测更接近多轮、增量式交互场景。

论文的实验结论可以总结为:

  1. RAG 方法在局部片段检索类任务上有优势;
  2. 长上下文模型在测试时学习和长程理解上更强;
  3. 现有方法普遍难以处理选择性遗忘,尤其是多跳事实更新;
  4. Agentic memory 方法虽然更复杂,但仍未完全突破 RAG 式局部检索的限制;
  5. Memory Agent 的评测不能只看“能否回答长文档问题”,还需要看它是否能持续更新、压缩、整合和修正记忆。

论文也指出了一个局限:由于预算限制,实验只能覆盖一部分具有代表性的 Memory Agent。未来工作中,作者计划提供更多 memory agent 的评测结果。


10. 总结

这篇论文的核心贡献不是提出一个新的记忆算法,而是提出一个更系统的评测视角:Memory Agent 的能力不能只用长上下文 QA 或 RAG 检索来衡量。一个真实可用的记忆系统至少需要回答四个问题:

  • 它能不能从长期历史中找到正确信息?
  • 它能不能在使用过程中学到新规则?
  • 它能不能整合分布在长历史中的信息?
  • 它能不能在新旧事实冲突时使用更新后的记忆?

MemoryAgentBench 将这些问题具体化为可执行的 benchmark,并通过实验展示了现有方法的分化:RAG 擅长局部检索,长上下文模型更适合全局学习与理解,而选择性遗忘仍然是当前 memory agent 的突出短板。

从论文的结果看,Memory Agent 的研究还不能停留在“把历史存起来”或“需要时检索出来”。更关键的问题是:系统如何在长期交互中形成稳定、可更新、可压缩、可推理的记忆状态。这也是 MemoryAgentBench 想要推动后续研究关注的方向。

posted @ 2026-06-05 14:45  YourF4u1t  阅读(19)  评论(0)    收藏  举报