Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

论文阅读：Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

论文标题：Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
作者：Yuanzhe Hu, Yu Wang, Julian McAuley
发表位置：ICLR 2026 Conference Paper / arXiv preprint
arXiv 编号：2507.05257v3
原文链接：https://arxiv.org/pdf/2507.05257
主题：LLM Agent、长期记忆、记忆评测、多轮交互、RAG、长上下文
核心问题：如何系统评估一个带有记忆机制的 LLM Agent 是否真的能在多轮、增量式交互中记住、更新、检索和遗忘信息？

1. 论文要解决什么问题？

近年来，LLM Agent 的评测主要集中在推理、规划、工具调用、代码生成等能力上。例如，一个 Agent 能否完成网页操作、编写软件、解决复杂任务，已经有不少基准可以测试。但论文指出，Agent 的另一个关键能力——记忆能力——仍然缺少系统评测。

这里的“记忆”并不只是把长文本塞进上下文窗口。论文将带有记忆机制的 Agent 称为 Memory Agent，其记忆可以表现为模型参数、向量、文本历史、外部数据库等形式。本文主要关注现实系统中更常见的两类：基于文本历史的记忆，以及基于外部数据库或检索模块的记忆。

论文认为，Memory Agent 的核心挑战在于：真实交互不是一次性给出完整长文档，而是信息随着用户会话不断到来。Agent 需要在多轮交互中逐步吸收信息、压缩信息、更新记忆，并在后续问题中正确使用这些记忆。因此，静态长上下文问答并不能完全代表 Memory Agent 的真实使用方式。

2. Memory Agent 需要具备的四类记忆能力

论文基于记忆科学和认知科学中的相关理论，将 Memory Agent 需要具备的能力归纳为四类：

能力	英文缩写	含义
准确检索	AR, Accurate Retrieval	面对查询时，从长期历史中找到正确片段或相关信息
测试时学习	TTL, Test-Time Learning	在部署过程中通过交互学习新的行为、规则或技能，而不需要额外训练
长程理解	LRU, Long-Range Understanding	整合分布在超长历史中的信息，形成对整个序列的全局理解
选择性遗忘	SF, Selective Forgetting	当旧信息被新信息覆盖、修正或删除时，能够以更新后的记忆状态作答

这四类能力的划分是全文的基础。论文后续构造的 benchmark、数据集选择、实验分析，都是围绕这四个维度展开的。

3. 为什么已有 benchmark 不够？

论文首先区分了两类容易混淆的概念：长上下文和记忆。

长上下文评测通常把完整材料一次性输入模型，然后要求模型回答问题。这种设置可以测试模型在一个大窗口内处理长文本的能力，但它并不等价于 Memory Agent 的记忆能力。原因在于，记忆通常是对过去经历的压缩、提炼和更新，而不是对全部历史内容的原样保存。

论文指出，已有数据集大致存在几类不足：

早期长上下文或记忆相关数据集的上下文长度较短，已经不足以挑战当前长上下文模型。
较新的长上下文数据集虽然上下文更长，但多数是静态阅读理解或长文档 QA，不符合 Memory Agent 增量式、多轮交互的特点。
面向 RAG 的 benchmark 通常关注固定知识库上的检索和 grounding，而不强调持续更新、覆盖旧知识、选择性遗忘等问题。
面向 memory agent 的数据集虽然已经出现，但在主题多样性、交互真实性，以及四类核心能力覆盖上仍不完整。

论文用一个表格比较了 MemoryAgentBench 与已有长期记忆 QA benchmark：

Benchmark	#Q	Context Depth	AR	TTL	LRU	SF	LCA	RAG	AM
MemoryBank	194	5k	✓	✓	✗	✗	✓	✗	✓
LoCoMo	7512	10k	✓	✗	✗	✗	✓	✓	✗
PerLTQA	8593	1M*	✓	✗	✗	✗	✓	✓	✗
RealTalk	728	375k*	✓	✗	✓	✗	✓	✗	✗
LongMemEval	500	115k, 1.5M	✓	✗	✗	✗	✓	✓	✗
StoryBench	86	-	✓	✗	✓	✗	✓	✗	✗
MemoryAgentBench	2071	103k–1.44M	✓	✓	✓	✓	✓	✓	✓

其中，LCA 表示 Long-Context Agents，RAG 表示 RAG Agents，AM 表示 Agentic Memory。论文强调，MemoryAgentBench 的目标不是只测试某一种记忆实现，而是覆盖不同类型的 memory agent，并在四类核心能力上进行统一评测。

4. MemoryAgentBench 的整体设计

MemoryAgentBench 的核心思路是：将现有长上下文数据集和新构造的数据集转化成多轮输入格式，从而模拟 Memory Agent 在真实交互中逐步接收信息的过程。

论文将每个任务统一表示为：

c1, c2, ..., cn   # 按时间顺序输入的 chunks
q1, q2, ..., qm   # 问题
a1, a2, ..., am   # 答案

其中，每个 chunk 都会被包装成一个用户消息，并带有类似“请记住这些内容，之后我会提问”的指令。Agent 需要一段一段地接收这些 chunk，将其吸收到记忆中，并在所有输入完成之后回答相关问题。

这个协议有两个重要特点：

第一，它显式触发 Agent 的记忆机制。相比直接把原始长文本输入模型，论文使用模拟的 User-Assistant 对话，让 Agent 在交互过程中逐步“记住”内容。

第二，它允许一个长上下文对应多个问题。论文指出，随着上下文长度越来越长，如果为每一个问题都重新注入百万级 token，会非常低效。因此，在 EventQA、FactConsolidation、LongMemEval(S*) 等设置中，一个长历史会对应多个问题，从而提高评测效率。

5. 四类能力对应的数据集

论文将 MemoryAgentBench 的任务划分为四大类，每类对应不同的数据集与指标。

能力类别	数据集	指标	平均上下文长度	任务说明
Accurate Retrieval	SH-Doc QA	Accuracy	197K	单跳 gold passage 检索 QA
Accurate Retrieval	MH-Doc QA	Accuracy	421K	多跳 gold passage 检索 QA
Accurate Retrieval	LongMemEval(S*)	Accuracy	355K	基于对话历史的 QA
Accurate Retrieval	EventQA	Accuracy	534K	角色事件相关的小说多选 QA
Test-Time Learning	BANKING77 / CLINC150 / NLU / TREC	Accuracy	103K	意图分类或问题类型分类
Test-Time Learning	Movie Recommendation	Recall@5	1.44M	根据电影相关对话进行推荐
Long Range Understanding	∞Bench-Sum	F1-Score	172K	替换实体后的小说摘要
Long Range Understanding	Detective QA	Accuracy	124K	侦探小说上的长程推理 QA
Selective Forgetting	FactConsolidation-SH	Accuracy	262K	单跳事实更新判断
Selective Forgetting	FactConsolidation-MH	Accuracy	262K	多跳事实更新判断

5.1 Accurate Retrieval：准确检索

准确检索关注 Agent 是否能从长历史中找到回答问题所需的片段。论文使用了文档问答、LongMemEval(S*)，并新构造了 EventQA。

EventQA 的任务形式比较特别：Agent 需要阅读小说，并根据最多五个之前发生的事件，从多个候选项中选择正确的后续事件。它考察的不是简单关键词匹配，而是 Agent 是否能记住人物经历和时间顺序。

5.2 Test-Time Learning：测试时学习

测试时学习关注 Agent 是否能在部署过程中从交互历史中学习新规则。

论文使用两类任务：

一类是多分类任务，例如 BANKING77、CLINC150、NLU、TREC-Coarse 和 TREC-Fine。Agent 需要根据历史中的大量带标签样本，学会将新句子映射到正确类别。

另一类是电影推荐任务。Agent 会接收大量电影相关对话，然后根据长历史推荐相关电影。这个任务的平均上下文长度达到 1.44M，是整个 benchmark 中最长的一类。

5.3 Long-Range Understanding：长程理解

长程理解关注 Agent 是否能整合分布在长历史不同位置的信息。

论文使用两个任务：∞Bench-Sum 和 Detective QA。前者要求 Agent 分析小说情节和人物并生成较长摘要；后者要求 Agent 在侦探小说中进行跨长文本范围的推理。与准确检索不同，长程理解并不只是找到一个片段，而是需要对全局内容形成整合性理解。

5.4 Selective Forgetting：选择性遗忘

选择性遗忘是论文中特别强调的一类能力。真实场景中，用户信息会发生变化，旧事实可能被新事实覆盖。Agent 如果只记住最早出现的信息，或者无法处理冲突，就会给出过时答案。

为此，论文构造了 FactConsolidation。它基于 MQUAKE 中的 counterfactual edit pairs，每组包含一个原始事实和一个与之矛盾的改写事实。改写后的新事实会出现在旧事实之后，从而模拟真实的信息更新场景。

任务分为两类：

FactConsolidation-SH：单跳事实回忆；
FactConsolidation-MH：需要跨多个事实进行多跳推理。

论文在提示中明确告诉 Agent：事实带有序号，序号越大表示事实越新；当事实冲突时，应该使用更新的事实。这意味着，如果 Agent 仍然失败，问题就不只是提示不清楚，而是记忆更新和长程一致性本身仍然困难。

6. 被评测的 Memory Agent 类型

论文评测了三大类 agent。

6.1 Long-Context Agents

Long-Context Agent 直接依赖模型的长上下文窗口。它会把输入 chunk 按顺序放进上下文缓冲区，当超过窗口限制时，用 FIFO 的方式移除最早的 chunk。

这种方式简单直接，优势是可以让模型在当前窗口内整体处理信息；缺点是窗口仍然有限，一旦历史超过窗口，早期内容就会被丢弃。

6.2 RAG Agents

RAG Agent 将过去信息存入外部 memory pool，在回答问题时检索相关内容再交给 LLM。论文进一步将 RAG Agent 分为三类：

类型	代表方法
Simple RAG	BM25
Embedding-based RAG	Contriever, Text-Embed-3-Small, Text-Embed-3-Large, Qwen3-Embedding-4B
Structure-Augmented RAG	RAPTOR, GraphRAG, MemoRAG, HippoRAG-v2, Mem0, Cognee, Zep

RAG 的优势在于检索局部相关片段，因此在准确检索任务上往往有效。但论文指出，对于需要整体理解、跨长历史学习、或处理复杂更新的问题，单次 top-k 检索容易遗漏必要信息。

6.3 Agentic Memory Agents

Agentic Memory Agent 不只是一次性检索，而是通过更具决策性的流程进行查询、检索、反思和多轮推理。论文评测的代表方法包括 Self-RAG、MemGPT 和 MIRIX。

这类方法理论上更适合处理模糊查询或多步问题，但论文实验显示，它们仍然受到 RAG 式记忆机制的基本限制：如果关键信息无法通过局部检索暴露出来，Agent 仍然难以形成全局理解或完成测试时学习。

7. 实验设置与整体结果

论文在不同任务上比较了长上下文模型、RAG 系统、结构增强 RAG、商业 memory agent，以及 agentic memory 方法。对于未特别说明的 RAG agent 和商业 memory agent，论文使用 GPT-4o-mini 作为 backbone，并将 GPT-4o-mini 的表现作为参考。

整体结果可以概括为三点。

7.1 RAG 方法在 Accurate Retrieval 上更有优势

在准确检索类任务中，许多 RAG Agent 的表现优于 GPT-4o-mini 这个 backbone。论文认为这符合直觉：如果问题只需要找到少量关键片段，RAG 的检索机制可以有效缩小搜索范围。

例如，在 Table 3 中，BM25 在 AR 平均分上达到 60.5，HippoRAG-v2 达到 65.1，MIRIX(4.1-mini) 达到 63.0，而 GPT-4o-mini 的 AR 平均分为 49.2。

7.2 长上下文模型在 TTL 和 LRU 上更有优势

在测试时学习和长程理解任务上，长上下文模型整体更占优势。论文认为，这反映了 RAG 方法和商业 memory agent 的一个根本限制：它们通常只取回局部片段，而测试时学习和长程理解往往需要跨整个输入进行学习和整合。

例如，Claude-3.7-Sonnet 在 LRU 平均分上达到 62.2，是 Table 3 中较高的结果；而不少 RAG 或 agentic memory 方法在 ∞Bench-Sum 等需要全局整合的任务上表现较低。

7.3 选择性遗忘仍然是所有方法的难点

选择性遗忘是论文实验中最困难的能力之一。论文指出，所有方法在多跳选择性遗忘任务上都表现很差，最高也只有 7% accuracy。单跳情况下，长上下文 agent 能取得相对合理的结果，但多跳事实更新仍然困难。

这说明，Memory Agent 不仅要“记得住”，还要“知道该用哪一个版本的记忆”。当新旧事实冲突，并且问题需要多步推理时，现有方法很容易混用旧信息或无法稳定定位最新事实。

8. 消融实验与分析

论文进一步从 chunk size、retrieval top-k、backbone model 和 FactConsolidation 数据集验证等方面进行了分析。

8.1 Chunk size 的影响

论文固定 retrieval top-k 为 10，改变输入 chunk size。结果显示，在 Accurate Retrieval 任务中，如果资源允许，使用更小的 chunk size 并增加记忆构建阶段的检索调用，有助于提升性能。原因是更细粒度的切分可以提高检索片段与问题之间的相关性。

但在 Long-Range Understanding 任务中，改变 chunk size 反而可能伤害性能。论文解释说，这类任务需要整合大范围、连贯上下文，而 RAG 本身并不擅长用局部片段完成全局理解。

8.2 Retrieval top-k 的影响

论文还比较了 top-k 为 2、5、10 时的结果。总体上，增加检索 chunk 数量通常能提升多数任务表现。但论文也指出，当 chunk size 为 4096 时，检索 10 个 chunk 已经接近 40k token，对模型容量提出较高要求。因此，论文没有继续评估 top-k 为 20 的设置。

8.3 Backbone model 的影响

论文选择若干代表性 memory agent，并在不同 backbone model 上进行比较。结果显示，对 RAG Agent 来说，当 backbone 已经足够强时，继续升级模型带来的收益有限；而对 MIRIX 这类 Agentic Memory 方法，换用更强的 GPT-4.1-mini 后性能提升较明显。

这说明，不同记忆机制的瓶颈并不相同。普通 RAG 的瓶颈可能更多在检索与信息组织；而 agentic memory 方法可能还受到 backbone 推理和决策能力的影响。

8.4 FactConsolidation 的可解性验证

由于 FactConsolidation 上很多模型表现极低，论文进一步使用更短上下文版本和更强的 reasoning model 进行验证。

结果显示，在 6K 版本的 FactCon-SH 上，GPT-4o 和 o4-mini 都能取得较好表现；在 6K 版本的 FactCon-MH 上，o4-mini 也能达到较高分数。但当上下文长度增加到 32K，性能明显下降。

论文据此说明，FactConsolidation 并不是不可解任务；问题在于，当历史变长、冲突事实变多、且需要多跳推理时，当前 memory agent 仍然缺乏稳定处理长程事实更新的能力。

9. 论文结论与局限

论文提出了 MemoryAgentBench，用于统一评估 Memory Agent 的四类关键能力：准确检索、测试时学习、长程理解和选择性遗忘。它通过重构已有长上下文数据集，并新增 EventQA 和 FactConsolidation，使评测更接近多轮、增量式交互场景。

论文的实验结论可以总结为：

RAG 方法在局部片段检索类任务上有优势；
长上下文模型在测试时学习和长程理解上更强；
现有方法普遍难以处理选择性遗忘，尤其是多跳事实更新；
Agentic memory 方法虽然更复杂，但仍未完全突破 RAG 式局部检索的限制；
Memory Agent 的评测不能只看“能否回答长文档问题”，还需要看它是否能持续更新、压缩、整合和修正记忆。

论文也指出了一个局限：由于预算限制，实验只能覆盖一部分具有代表性的 Memory Agent。未来工作中，作者计划提供更多 memory agent 的评测结果。

10. 总结

这篇论文的核心贡献不是提出一个新的记忆算法，而是提出一个更系统的评测视角：Memory Agent 的能力不能只用长上下文 QA 或 RAG 检索来衡量。一个真实可用的记忆系统至少需要回答四个问题：

它能不能从长期历史中找到正确信息？
它能不能在使用过程中学到新规则？
它能不能整合分布在长历史中的信息？
它能不能在新旧事实冲突时使用更新后的记忆？

MemoryAgentBench 将这些问题具体化为可执行的 benchmark，并通过实验展示了现有方法的分化：RAG 擅长局部检索，长上下文模型更适合全局学习与理解，而选择性遗忘仍然是当前 memory agent 的突出短板。

从论文的结果看，Memory Agent 的研究还不能停留在“把历史存起来”或“需要时检索出来”。更关键的问题是：系统如何在长期交互中形成稳定、可更新、可压缩、可推理的记忆状态。这也是 MemoryAgentBench 想要推动后续研究关注的方向。

posted @ 2026-06-05 14:45 YourF4u1t 阅读(19) 评论(0) 收藏举报

刷新页面返回顶部