Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
论文阅读:Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
论文标题:Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
作者:Yuanzhe Hu, Yu Wang, Julian McAuley
发表位置:ICLR 2026 Conference Paper / arXiv preprint
arXiv 编号:2507.05257v3
原文链接:https://arxiv.org/pdf/2507.05257
主题:LLM Agent、长期记忆、记忆评测、多轮交互、RAG、长上下文
核心问题:如何系统评估一个带有记忆机制的 LLM Agent 是否真的能在多轮、增量式交互中记住、更新、检索和遗忘信息?
1. 论文要解决什么问题?
近年来,LLM Agent 的评测主要集中在推理、规划、工具调用、代码生成等能力上。例如,一个 Agent 能否完成网页操作、编写软件、解决复杂任务,已经有不少基准可以测试。但论文指出,Agent 的另一个关键能力——记忆能力——仍然缺少系统评测。
这里的“记忆”并不只是把长文本塞进上下文窗口。论文将带有记忆机制的 Agent 称为 Memory Agent,其记忆可以表现为模型参数、向量、文本历史、外部数据库等形式。本文主要关注现实系统中更常见的两类:基于文本历史的记忆,以及基于外部数据库或检索模块的记忆。
论文认为,Memory Agent 的核心挑战在于:真实交互不是一次性给出完整长文档,而是信息随着用户会话不断到来。Agent 需要在多轮交互中逐步吸收信息、压缩信息、更新记忆,并在后续问题中正确使用这些记忆。因此,静态长上下文问答并不能完全代表 Memory Agent 的真实使用方式。
2. Memory Agent 需要具备的四类记忆能力
论文基于记忆科学和认知科学中的相关理论,将 Memory Agent 需要具备的能力归纳为四类:
| 能力 | 英文缩写 | 含义 |
|---|---|---|
| 准确检索 | AR, Accurate Retrieval | 面对查询时,从长期历史中找到正确片段或相关信息 |
| 测试时学习 | TTL, Test-Time Learning | 在部署过程中通过交互学习新的行为、规则或技能,而不需要额外训练 |
| 长程理解 | LRU, Long-Range Understanding | 整合分布在超长历史中的信息,形成对整个序列的全局理解 |
| 选择性遗忘 | SF, Selective Forgetting | 当旧信息被新信息覆盖、修正或删除时,能够以更新后的记忆状态作答 |

这四类能力的划分是全文的基础。论文后续构造的 benchmark、数据集选择、实验分析,都是围绕这四个维度展开的。
3. 为什么已有 benchmark 不够?
论文首先区分了两类容易混淆的概念:长上下文和记忆。
长上下文评测通常把完整材料一次性输入模型,然后要求模型回答问题。这种设置可以测试模型在一个大窗口内处理长文本的能力,但它并不等价于 Memory Agent 的记忆能力。原因在于,记忆通常是对过去经历的压缩、提炼和更新,而不是对全部历史内容的原样保存。
论文指出,已有数据集大致存在几类不足:
- 早期长上下文或记忆相关数据集的上下文长度较短,已经不足以挑战当前长上下文模型。
- 较新的长上下文数据集虽然上下文更长,但多数是静态阅读理解或长文档 QA,不符合 Memory Agent 增量式、多轮交互的特点。
- 面向 RAG 的 benchmark 通常关注固定知识库上的检索和 grounding,而不强调持续更新、覆盖旧知识、选择性遗忘等问题。
- 面向 memory agent 的数据集虽然已经出现,但在主题多样性、交互真实性,以及四类核心能力覆盖上仍不完整。
论文用一个表格比较了 MemoryAgentBench 与已有长期记忆 QA benchmark:
| Benchmark | #Q | Context Depth | AR | TTL | LRU | SF | LCA | RAG | AM |
|---|---|---|---|---|---|---|---|---|---|
| MemoryBank | 194 | 5k | ✓ | ✓ | ✗ | ✗ | ✓ | ✗ | ✓ |
| LoCoMo | 7512 | 10k | ✓ | ✗ | ✗ | ✗ | ✓ | ✓ | ✗ |
| PerLTQA | 8593 | 1M* | ✓ | ✗ | ✗ | ✗ | ✓ | ✓ | ✗ |
| RealTalk | 728 | 375k* | ✓ | ✗ | ✓ | ✗ | ✓ | ✗ | ✗ |
| LongMemEval | 500 | 115k, 1.5M | ✓ | ✗ | ✗ | ✗ | ✓ | ✓ | ✗ |
| StoryBench | 86 | - | ✓ | ✗ | ✓ | ✗ | ✓ | ✗ | ✗ |
| MemoryAgentBench | 2071 | 103k–1.44M | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
其中,LCA 表示 Long-Context Agents,RAG 表示 RAG Agents,AM 表示 Agentic Memory。论文强调,MemoryAgentBench 的目标不是只测试某一种记忆实现,而是覆盖不同类型的 memory agent,并在四类核心能力上进行统一评测。
4. MemoryAgentBench 的整体设计
MemoryAgentBench 的核心思路是:将现有长上下文数据集和新构造的数据集转化成多轮输入格式,从而模拟 Memory Agent 在真实交互中逐步接收信息的过程。
论文将每个任务统一表示为:
c1, c2, ..., cn # 按时间顺序输入的 chunks
q1, q2, ..., qm # 问题
a1, a2, ..., am # 答案
其中,每个 chunk 都会被包装成一个用户消息,并带有类似“请记住这些内容,之后我会提问”的指令。Agent 需要一段一段地接收这些 chunk,将其吸收到记忆中,并在所有输入完成之后回答相关问题。
这个协议有两个重要特点:
第一,它显式触发 Agent 的记忆机制。相比直接把原始长文本输入模型,论文使用模拟的 User-Assistant 对话,让 Agent 在交互过程中逐步“记住”内容。
第二,它允许一个长上下文对应多个问题。论文指出,随着上下文长度越来越长,如果为每一个问题都重新注入百万级 token,会非常低效。因此,在 EventQA、FactConsolidation、LongMemEval(S*) 等设置中,一个长历史会对应多个问题,从而提高评测效率。
5. 四类能力对应的数据集
论文将 MemoryAgentBench 的任务划分为四大类,每类对应不同的数据集与指标。
| 能力类别 | 数据集 | 指标 | 平均上下文长度 | 任务说明 |
|---|---|---|---|---|
| Accurate Retrieval | SH-Doc QA | Accuracy | 197K | 单跳 gold passage 检索 QA |
| Accurate Retrieval | MH-Doc QA | Accuracy | 421K | 多跳 gold passage 检索 QA |
| Accurate Retrieval | LongMemEval(S*) | Accuracy | 355K | 基于对话历史的 QA |
| Accurate Retrieval | EventQA | Accuracy | 534K | 角色事件相关的小说多选 QA |
| Test-Time Learning | BANKING77 / CLINC150 / NLU / TREC | Accuracy | 103K | 意图分类或问题类型分类 |
| Test-Time Learning | Movie Recommendation | Recall@5 | 1.44M | 根据电影相关对话进行推荐 |
| Long Range Understanding | ∞Bench-Sum | F1-Score | 172K | 替换实体后的小说摘要 |
| Long Range Understanding | Detective QA | Accuracy | 124K | 侦探小说上的长程推理 QA |
| Selective Forgetting | FactConsolidation-SH | Accuracy | 262K | 单跳事实更新判断 |
| Selective Forgetting | FactConsolidation-MH | Accuracy | 262K | 多跳事实更新判断 |
5.1 Accurate Retrieval:准确检索
准确检索关注 Agent 是否能从长历史中找到回答问题所需的片段。论文使用了文档问答、LongMemEval(S*),并新构造了 EventQA。
EventQA 的任务形式比较特别:Agent 需要阅读小说,并根据最多五个之前发生的事件,从多个候选项中选择正确的后续事件。它考察的不是简单关键词匹配,而是 Agent 是否能记住人物经历和时间顺序。
5.2 Test-Time Learning:测试时学习
测试时学习关注 Agent 是否能在部署过程中从交互历史中学习新规则。
论文使用两类任务:
一类是多分类任务,例如 BANKING77、CLINC150、NLU、TREC-Coarse 和 TREC-Fine。Agent 需要根据历史中的大量带标签样本,学会将新句子映射到正确类别。
另一类是电影推荐任务。Agent 会接收大量电影相关对话,然后根据长历史推荐相关电影。这个任务的平均上下文长度达到 1.44M,是整个 benchmark 中最长的一类。
5.3 Long-Range Understanding:长程理解
长程理解关注 Agent 是否能整合分布在长历史不同位置的信息。
论文使用两个任务:∞Bench-Sum 和 Detective QA。前者要求 Agent 分析小说情节和人物并生成较长摘要;后者要求 Agent 在侦探小说中进行跨长文本范围的推理。与准确检索不同,长程理解并不只是找到一个片段,而是需要对全局内容形成整合性理解。
5.4 Selective Forgetting:选择性遗忘
选择性遗忘是论文中特别强调的一类能力。真实场景中,用户信息会发生变化,旧事实可能被新事实覆盖。Agent 如果只记住最早出现的信息,或者无法处理冲突,就会给出过时答案。
为此,论文构造了 FactConsolidation。它基于 MQUAKE 中的 counterfactual edit pairs,每组包含一个原始事实和一个与之矛盾的改写事实。改写后的新事实会出现在旧事实之后,从而模拟真实的信息更新场景。
任务分为两类:
- FactConsolidation-SH:单跳事实回忆;
- FactConsolidation-MH:需要跨多个事实进行多跳推理。
论文在提示中明确告诉 Agent:事实带有序号,序号越大表示事实越新;当事实冲突时,应该使用更新的事实。这意味着,如果 Agent 仍然失败,问题就不只是提示不清楚,而是记忆更新和长程一致性本身仍然困难。
6. 被评测的 Memory Agent 类型
论文评测了三大类 agent。
6.1 Long-Context Agents
Long-Context Agent 直接依赖模型的长上下文窗口。它会把输入 chunk 按顺序放进上下文缓冲区,当超过窗口限制时,用 FIFO 的方式移除最早的 chunk。
这种方式简单直接,优势是可以让模型在当前窗口内整体处理信息;缺点是窗口仍然有限,一旦历史超过窗口,早期内容就会被丢弃。
6.2 RAG Agents
RAG Agent 将过去信息存入外部 memory pool,在回答问题时检索相关内容再交给 LLM。论文进一步将 RAG Agent 分为三类:
| 类型 | 代表方法 |
|---|---|
| Simple RAG | BM25 |
| Embedding-based RAG | Contriever, Text-Embed-3-Small, Text-Embed-3-Large, Qwen3-Embedding-4B |
| Structure-Augmented RAG | RAPTOR, GraphRAG, MemoRAG, HippoRAG-v2, Mem0, Cognee, Zep |
RAG 的优势在于检索局部相关片段,因此在准确检索任务上往往有效。但论文指出,对于需要整体理解、跨长历史学习、或处理复杂更新的问题,单次 top-k 检索容易遗漏必要信息。
6.3 Agentic Memory Agents
Agentic Memory Agent 不只是一次性检索,而是通过更具决策性的流程进行查询、检索、反思和多轮推理。论文评测的代表方法包括 Self-RAG、MemGPT 和 MIRIX。
这类方法理论上更适合处理模糊查询或多步问题,但论文实验显示,它们仍然受到 RAG 式记忆机制的基本限制:如果关键信息无法通过局部检索暴露出来,Agent 仍然难以形成全局理解或完成测试时学习。
7. 实验设置与整体结果
论文在不同任务上比较了长上下文模型、RAG 系统、结构增强 RAG、商业 memory agent,以及 agentic memory 方法。对于未特别说明的 RAG agent 和商业 memory agent,论文使用 GPT-4o-mini 作为 backbone,并将 GPT-4o-mini 的表现作为参考。
整体结果可以概括为三点。
7.1 RAG 方法在 Accurate Retrieval 上更有优势
在准确检索类任务中,许多 RAG Agent 的表现优于 GPT-4o-mini 这个 backbone。论文认为这符合直觉:如果问题只需要找到少量关键片段,RAG 的检索机制可以有效缩小搜索范围。
例如,在 Table 3 中,BM25 在 AR 平均分上达到 60.5,HippoRAG-v2 达到 65.1,MIRIX(4.1-mini) 达到 63.0,而 GPT-4o-mini 的 AR 平均分为 49.2。
7.2 长上下文模型在 TTL 和 LRU 上更有优势
在测试时学习和长程理解任务上,长上下文模型整体更占优势。论文认为,这反映了 RAG 方法和商业 memory agent 的一个根本限制:它们通常只取回局部片段,而测试时学习和长程理解往往需要跨整个输入进行学习和整合。
例如,Claude-3.7-Sonnet 在 LRU 平均分上达到 62.2,是 Table 3 中较高的结果;而不少 RAG 或 agentic memory 方法在 ∞Bench-Sum 等需要全局整合的任务上表现较低。
7.3 选择性遗忘仍然是所有方法的难点
选择性遗忘是论文实验中最困难的能力之一。论文指出,所有方法在多跳选择性遗忘任务上都表现很差,最高也只有 7% accuracy。单跳情况下,长上下文 agent 能取得相对合理的结果,但多跳事实更新仍然困难。
这说明,Memory Agent 不仅要“记得住”,还要“知道该用哪一个版本的记忆”。当新旧事实冲突,并且问题需要多步推理时,现有方法很容易混用旧信息或无法稳定定位最新事实。
8. 消融实验与分析
论文进一步从 chunk size、retrieval top-k、backbone model 和 FactConsolidation 数据集验证等方面进行了分析。
8.1 Chunk size 的影响
论文固定 retrieval top-k 为 10,改变输入 chunk size。结果显示,在 Accurate Retrieval 任务中,如果资源允许,使用更小的 chunk size 并增加记忆构建阶段的检索调用,有助于提升性能。原因是更细粒度的切分可以提高检索片段与问题之间的相关性。
但在 Long-Range Understanding 任务中,改变 chunk size 反而可能伤害性能。论文解释说,这类任务需要整合大范围、连贯上下文,而 RAG 本身并不擅长用局部片段完成全局理解。

8.2 Retrieval top-k 的影响
论文还比较了 top-k 为 2、5、10 时的结果。总体上,增加检索 chunk 数量通常能提升多数任务表现。但论文也指出,当 chunk size 为 4096 时,检索 10 个 chunk 已经接近 40k token,对模型容量提出较高要求。因此,论文没有继续评估 top-k 为 20 的设置。

8.3 Backbone model 的影响
论文选择若干代表性 memory agent,并在不同 backbone model 上进行比较。结果显示,对 RAG Agent 来说,当 backbone 已经足够强时,继续升级模型带来的收益有限;而对 MIRIX 这类 Agentic Memory 方法,换用更强的 GPT-4.1-mini 后性能提升较明显。
这说明,不同记忆机制的瓶颈并不相同。普通 RAG 的瓶颈可能更多在检索与信息组织;而 agentic memory 方法可能还受到 backbone 推理和决策能力的影响。
8.4 FactConsolidation 的可解性验证
由于 FactConsolidation 上很多模型表现极低,论文进一步使用更短上下文版本和更强的 reasoning model 进行验证。
结果显示,在 6K 版本的 FactCon-SH 上,GPT-4o 和 o4-mini 都能取得较好表现;在 6K 版本的 FactCon-MH 上,o4-mini 也能达到较高分数。但当上下文长度增加到 32K,性能明显下降。
论文据此说明,FactConsolidation 并不是不可解任务;问题在于,当历史变长、冲突事实变多、且需要多跳推理时,当前 memory agent 仍然缺乏稳定处理长程事实更新的能力。
9. 论文结论与局限
论文提出了 MemoryAgentBench,用于统一评估 Memory Agent 的四类关键能力:准确检索、测试时学习、长程理解和选择性遗忘。它通过重构已有长上下文数据集,并新增 EventQA 和 FactConsolidation,使评测更接近多轮、增量式交互场景。
论文的实验结论可以总结为:
- RAG 方法在局部片段检索类任务上有优势;
- 长上下文模型在测试时学习和长程理解上更强;
- 现有方法普遍难以处理选择性遗忘,尤其是多跳事实更新;
- Agentic memory 方法虽然更复杂,但仍未完全突破 RAG 式局部检索的限制;
- Memory Agent 的评测不能只看“能否回答长文档问题”,还需要看它是否能持续更新、压缩、整合和修正记忆。
论文也指出了一个局限:由于预算限制,实验只能覆盖一部分具有代表性的 Memory Agent。未来工作中,作者计划提供更多 memory agent 的评测结果。
10. 总结
这篇论文的核心贡献不是提出一个新的记忆算法,而是提出一个更系统的评测视角:Memory Agent 的能力不能只用长上下文 QA 或 RAG 检索来衡量。一个真实可用的记忆系统至少需要回答四个问题:
- 它能不能从长期历史中找到正确信息?
- 它能不能在使用过程中学到新规则?
- 它能不能整合分布在长历史中的信息?
- 它能不能在新旧事实冲突时使用更新后的记忆?
MemoryAgentBench 将这些问题具体化为可执行的 benchmark,并通过实验展示了现有方法的分化:RAG 擅长局部检索,长上下文模型更适合全局学习与理解,而选择性遗忘仍然是当前 memory agent 的突出短板。
从论文的结果看,Memory Agent 的研究还不能停留在“把历史存起来”或“需要时检索出来”。更关键的问题是:系统如何在长期交互中形成稳定、可更新、可压缩、可推理的记忆状态。这也是 MemoryAgentBench 想要推动后续研究关注的方向。

浙公网安备 33010602011771号