【综述】重新思考人工智能中的记忆:分类、操作、主题与未来方向

https://arxiv.org/abs/2505.00675

摘要

记忆是人工智能系统的基础组成部分,支撑着基于大语言模型(LLMs)的智能体。以往的综述多聚焦于记忆在LLM中的应用(如实现对话智能体的个性化记忆),但往往忽略了驱动记忆动态变化的基本操作。本文首先将记忆表示划分为参数化和上下文两种形式,并介绍了六种基本的记忆操作:巩固、更新、索引、遗忘、检索和压缩。我们将这些操作映射到长期记忆、长上下文、参数化修改和多源记忆等关键研究主题。通过以原子操作和表示类型为视角重新审视记忆系统,本综述为与记忆相关的研究、基准数据集和工具提供了结构化且动态的视角,阐明了LLM智能体中各功能的相互作用,并展望了未来的研究方向

引言

记忆是大语言模型(LLM)系统的核心,使得智能体能够实现连贯且长期的交互。尽管近期的研究已关注于存储、检索和基于记忆的生成,但关于整体架构的系统性视角仍然较为欠缺。

现有的综述多从操作层面对记忆进行分类,但大多聚焦于如长上下文建模、长期记忆、个性化或知识编辑等子领域,缺乏统一的操作框架。例如,有的综述仅涵盖了写入、管理和读取等高层操作,遗漏了如索引等关键环节。更广泛地说,鲜有综述对记忆研究的范围进行界定,或对技术实现、基准和工具等实际基础进行系统梳理。

为弥补这些不足,本文将记忆分为“参数化记忆”和“上下文记忆”两大类。参数化记忆是指模型参数中隐式编码的知识,而上下文记忆则是以结构化或非结构化形式显式存储于外部的信息。从时间维度看,记忆既包括长期(如多轮对话、外部观察)也包括短期上下文。基于上述类型,我们将记忆操作分为“管理类”和“利用类”。管理类包括:巩固(将新知识整合为持久记忆)、索引(组织记忆以便检索)、更新(根据新输入修改记忆)、遗忘(移除过时或错误内容);利用类包括:检索(访问相关记忆)和压缩(在保留关键信息的前提下减少规模)。

为落实我们的分类体系并梳理关键研究方向,我们开展了初步调研,并定义了横跨时间、上下文、模型内部和跨模态四个互补维度的核心主题,具体如下:

  • 长期记忆(时间维度):关注多轮对话系统中的记忆管理、利用和个性化,涵盖检索增强生成(RAG)、个性化智能体和问答等应用。
  • 长上下文记忆(上下文维度):兼顾参数高效性(如KV缓存丢弃)和上下文利用效果(如长上下文压缩),以应对超长序列处理。
  • 参数化记忆修改(模型内部):涵盖模型编辑、遗忘和持续学习等,聚焦于内部知识表示的动态适应。
  • 多源记忆(模态/集成):强调异构文本源的整合,也包括多模态输入,以支持更强的场景感知和推理能力。

基于上述分类,我们收集并标注了3万余篇相关论文,采用GPT相关性打分流程筛选出3923篇高相关性论文。为突出有影响力的工作,我们提出了相对引用指数(RCI),这是一种受RCR启发的时间归一化引用指标。所有论文均通过我们的统一分类-操作框架进行系统分析(见表1)。

img

本文结构如下:第二节介绍记忆分类体系和核心操作;第三节将高影响力主题映射到上述基础,并总结关键方法和数据集;第四节梳理实际应用、产品和工具;第五节对比人类与智能体的记忆系统,突出操作上的异同;第六节展望以记忆为中心的AI未来发展方向。图1展示了全文概览。

img

记忆基础知识

记忆分类

从记忆表示的角度来看,我们将记忆分为参数化记忆上下文记忆,其中上下文记忆又包括非结构化结构化两种形式。

参数化记忆指的是隐式存储在模型内部参数中的知识。这类记忆在预训练或后续训练过程中获得,被嵌入到模型的权重中,并在推理时通过前馈计算进行访问。参数化记忆是一种即时、长期且持久的记忆形式,能够实现对事实和常识知识的快速、无上下文检索。然而,这种记忆缺乏透明性,难以针对新经验或特定任务上下文进行选择性更新。

上下文记忆指的是显式、外部的信息,用于补充大语言模型的参数。上下文记忆分为非结构化和结构化两类:

  • 非结构化上下文记忆是一种显式、通用模态的记忆系统,可以跨异构输入(如文本、图像、音频和视频)进行信息的存储与检索。它使智能体能够基于感知信号进行推理,并整合多模态上下文。根据时间范围,非结构化记忆又分为短期和长期。短期记忆通常指最近的观测内容,如当前对话会话的上下文;长期记忆则指跨会话的对话记录和个性化的持久知识。

  • 结构化上下文记忆是指以预定义、可解释的格式或模式(如知识图谱、关系表或本体)组织的显式记忆。这些结构便于查询和符号推理,常与预训练语言模型的联想能力互补。结构化记忆既可以是短期的(如推理时临时构建的本地知识),也可以是长期的(如跨会话积累的知识库)。

记忆操作

为了实现超越静态存储的动态记忆,AI系统需要一系列操作来管理信息的生命周期,并支持其在与外部环境交互时的高效利用。这些操作可分为两大功能类别:记忆管理与记忆利用。

记忆管理

记忆管理关注记忆的存储、维护与随时间的修剪,包含四个核心操作:巩固、索引、更新和遗忘。这些操作天然体现了记忆的时间性,即信息会随时间演化。

巩固:将\(t\)\(t+\Delta_t\)之间的\(m\)个短期经验\(\mathcal{E}_{[t, t+\Delta_{t}]} = (\epsilon_{1}, \epsilon_{2},\dots, \epsilon_{m})\)转化为持久记忆\(\mathcal{M}_{t}\)。这涉及将交互历史(如对话、轨迹等)编码为持久形式,如模型参数、图结构或知识库。巩固对于持续学习、个性化、外部记忆库构建和知识图谱构建至关重要。

\[ \mathcal{M}_{t+\Delta_{t}} = \texttt{Consolidate}(\mathcal{M}_{t}, \mathcal{E}_{[t, t+\Delta_{t}]}) \]

索引:指构建辅助编码\(\phi\)(如实体、属性或基于内容的表示),作为访问存储记忆的入口。索引不仅便于访问,还能编码记忆间的时间和关系结构,使检索更高效、更具语义一致性。索引支持符号、神经及混合记忆系统的可扩展检索。

\[ \mathcal{I}_{t} = \texttt{Index}(\mathcal{M}_{t}, \phi) \]

更新:重新激活\(\mathcal{M}_t\)中的现有记忆表示,并用新知识\(\mathcal{K}_{t+\Delta_{t}}\)对其进行临时修改。参数化记忆的更新通常采用定位-编辑机制,针对模型特定部分进行修改。上下文记忆的更新则包括摘要、修剪或细化,以重组或替换过时内容。这些操作支持持续适应并保持记忆一致性。

\[ \mathcal{M}_{t+\Delta_{t}} = \texttt{Update}(\mathcal{M}_{t}, \mathcal{K}_{t+\Delta_{t}}) \]

遗忘:即有选择地从\(\mathcal{M}_{t}\)中抑制内容\(\mathcal{F}\),以移除过时、无关或有害的信息。参数化记忆的遗忘常通过“反学习”技术实现,直接修改模型参数以擦除特定知识。上下文记忆的遗忘则包括基于时间的删除或语义过滤,以丢弃不再相关的内容。这有助于提升记忆效率并减少干扰。

\[ \mathcal{M}_{t+\Delta_{t}} = \texttt{Forget}(\mathcal{M}_{t}, \mathcal{F}) \]

然而,这些操作也带来固有风险和局限。攻击者可能利用漏洞篡改或投毒记忆内容。一旦被污染,记忆片段可能长期潜伏并在后续触发恶意行为。因此,需采用更健壮的方法,覆盖记忆操作及其全生命周期。

记忆利用

记忆利用关注存储记忆在推理时的检索与使用,主要包括检索和压缩两大操作。

检索:指根据输入从记忆中识别并访问相关信息,以支持下游任务(如响应生成、视觉定位或意图预测)。输入\(\mathcal{Q}\)可以是简单查询、复杂多轮对话上下文,甚至是视觉或多模态内容。记忆片段通常通过相似度函数sim()打分,超过阈值\(\tau\)的被认为相关。检索目标可涵盖多源、多模态甚至模型内部的参数化记忆。

\[ \texttt{Retrieve}(\mathcal{M}_{t}, \mathcal{Q}) = m_{\mathcal{Q}} \in \mathcal{M}_{t}, \quad \text{其中} \ \text{sim}(\mathcal{Q}, m_{\mathcal{Q}}) \geq \tau \]

压缩:在有限上下文窗口下,通过保留关键信息、丢弃冗余,实现高效的上下文利用。压缩比为\(\alpha\)。压缩分为输入前压缩和检索后压缩。输入前压缩适用于无检索的长上下文模型,通过打分、筛选或摘要使输入适配上下文限制。检索后压缩则在访问记忆后,对检索内容进行上下文或参数化压缩,将知识整合进模型参数。与记忆巩固不同,压缩聚焦于推理时的信息缩减。

\[ \mathcal{M}_{t}^{comp} = \texttt{Compress}(\mathcal{M}_{t}, \alpha) \]

从操作到关键研究主题

本节分析了现实世界系统如何通过核心操作管理和利用记忆。我们基于图1中的框架,聚焦于前文介绍的四个关键研究主题,并采用相对引用指数(RCI)——一种按时间归一化、以出版年限校正引用数量的指标——以突出有影响力的工作。RCI能够揭示记忆研究中的新兴趋势和持久贡献。图2展示了这些主题的架构全景。

img

长期记忆

长期记忆指的是通过与环境的交互(如多轮对话、浏览行为和智能体决策路径)获得的信息的持久存储。它支持在长期交互中进行记忆管理、利用和个性化,使智能体能够完成复杂任务。我们回顾了用于长期记忆处理和个性化的代表性数据集(见表4)。本节关注于情境化的长期记忆(结构化或非结构化),这与通过持续学习和记忆编辑存储在模型权重中的参数记忆不同。数据集和方法的详细总结见附录表1和表2。

img

管理

长期记忆的管理涉及对获得的经验进行整合、索引、更新和遗忘等操作。这里,记忆以两种形式体现:(1)多轮对话中累积的对话历史;(2)自主智能体的长期观察和决策。这些通常由大语言模型编码,并存储在外部记忆库中以便未来访问和复用。在这些任务中,记忆会随着新信息的加入而不断更新,并定期修剪以移除过时或无关内容。

记忆整合 指的是将短期记忆转化为长期记忆的过程。这通常涉及将对话历史保存到持久性记忆中。现有方法常采用摘要技术生成非结构化的记忆表示。也有方法通过大模型提示提取和结构化关键信息。与摘要不同,有些方法强调通过建模时间相关性来增强情境记忆。此外,还有工作将“发生了什么、在哪里、何时”的情节记忆分层组织,用于行动规划。这些工作共同展示了将类人记忆整合过程引入大模型智能体的努力。

记忆索引 是为了支持高效、准确检索而对记忆表示进行结构化的过程,是记忆使用的基础。近期工作将记忆索引分为三类:基于图的、信号增强的和基于时间线的方法。例如,有方法通过构建轻量级知识图显式揭示不同知识片段之间的联系;有方法为记忆键添加时间戳、事实内容和摘要;还有方法沿着不断演化的时间和因果链组织记忆,使对话智能体能够基于相关性和时间线检索信息片段,支持终身和动态个性化。这些策略强调了结构化、检索信号和时间动态对有效长期记忆管理的重要性。

记忆更新 通常是指外部记忆为未见过的信息创建新条目,或与现有记忆表示重新组织和整合内容的过程。近期研究将记忆更新分为两大类:内在更新和外在更新。内在更新 通过内部机制在没有明确外部反馈的情况下进行。选择性编辑等技术通过选择性删除过时信息来管理记忆,而递归摘要则通过迭代摘要压缩对话历史。记忆混合和精炼进一步通过合并过去和现在的表征来发展记忆,自我反思记忆演化则基于证据检索和验证更新记忆,随着时间的推移提高事实一致性。外在更新 依赖于外部信号,特别是用户反馈。例如,动态反馈合并将用户修正存储到记忆中,使系统能够在不需要重新训练的情况下持续改进。这些方法强调了自组织记忆更新和用户驱动适应之间的平衡,以实现可扩展的长期记忆。

记忆遗忘 涉及移除先前整合的长期记忆表征。遗忘可能随着时间的推移而自然发生,例如,遵循艾宾浩斯遗忘曲线的记忆痕迹逐渐衰退。相反,主动遗忘策略则是故意从记忆系统中移除特定信息。这在长期记忆存储敏感或潜在有害内容时尤为重要。因此,使系统能够出于隐私、安全或合规等原因有针对性地移除特定内容已成为一个主要研究方向。

利用

利用是指生成响应的过程,该响应以当前输入和相关记忆内容为条件,通常涉及记忆路由、集成和读取。

记忆检索 关注于根据给定查询选择最相关的记忆条目。为了系统化近期的进展,检索方法大致可以分为三类:以查询为中心的检索,侧重于改善查询的形成和适应,例如FLARE中的前瞻性查询重写和IterCQR中的迭代细化;以记忆为中心的检索,增强记忆候选项的组织和排序,包括更好的索引策略和重排序方法;以事件为中心的检索,基于时间和因果结构检索记忆。这些方法强调了自适应检索对于有效长期记忆访问的重要性,尽管对不断演变的记忆序列进行推理仍然是一个未解决的挑战。

记忆集成 是指在推理过程中选择性地将检索到的记忆与模型上下文相结合,以实现连贯的推理或决策。集成可能跨多个记忆源(例如,长期对话历史、外部知识库)和多种模态(例如,文本、图像或视频),从而实现更丰富和上下文相关的生成。近期在记忆集成方面的努力大致可以分为两种策略。静态上下文集成 方法,例如EWE和Optimus-1,侧重于在推理时检索和组合静态记忆条目,以丰富上下文并提高推理一致性。相反,动态记忆演化 方法,典型的有A-MEM、Synapse、R2I和SCM,强调在交互过程中使记忆增长、适应和重组,通过动态链接或控制记忆更新实现。虽然静态集成增强了即时的上下文基础,但动态演化对于构建更具适应性和终身学习能力的智能体至关重要。

基于记忆的生成 是指利用已检索和集成的记忆内容来指导响应的生成。现有方法大致可以根据记忆如何影响生成分为三类。首先,自反推理 方法,通过检索自生成或结构化的记忆痕迹来指导中间推理步骤,从而增强解码过程中的多跳推理。其次,反馈引导修正 方法,利用反馈记忆或记忆信息线索来限制生成,防止重复错误并提高输出的鲁棒性。第三,上下文对齐的长期生成 技术,通过将压缩或提取的记忆摘要集成到生成过程中,以在长对话或扩展文档中保持连贯性。这些方法共同提高了生成质量、一致性和推理深度,尽管诸如记忆噪声和检索记忆可靠性等挑战仍有待解决。

个性化

个性化是长期记忆的关键,但由于数据稀疏、隐私和用户偏好的变化而具有挑战性。目前的方法大致可以分为两类:模型级适应和外部记忆增强。

模型级适应 通过微调或轻量级更新将用户偏好编码到模型参数中。一些方法将用户特征嵌入潜在空间。例如,CLV使用对比学习对角色描述进行聚类以指导生成。其他方法采用参数高效的策略:RECAP通过前缀编码器注入检索到的用户历史,而Per-Pes则组装模块化适配器以反映用户行为。在专业领域,MaLP引入了双重过程记忆来建模医疗对话中的短期和长期个性化。这些方法展示了如何在不妥协效率或泛化能力的情况下进行轻量级适应以实现个性化。

外部记忆增强 通过在推理时从外部记忆中检索用户特定信息来个性化大语言模型。根据记忆格式,现有方法可以分为结构化、非结构化和混合方法。结构化记忆,如用户档案或知识图谱,在LaMP中用于构建个性化提示,在PerKGQA中用于个性化子图的问答。非结构化记忆,包括对话历史和叙事角色,在LAPDOG中被检索以丰富稀疏档案,同时通过双重学习与输入上下文对齐。混合方法如SiliconFriend和LD-Agent在会话之间保持持久记忆。尽管这些方法展示了可扩展性,但它们通常将长期记忆视为被动缓冲区,尚未充分探索其主动规划和决策的潜力。

讨论

长期记忆的评估仍然受到静态假设的限制。目前,长期记忆的基准测试主要遵循两种范式:基于知识的问答(QA)和多轮对话。QA任务评估模型检索和推理事实知识的能力,通常利用参数记忆和非结构化上下文记忆。诸如自我演化对齐和显著记忆蒸馏等技术已改善事实基础。然而,这些评估通常假设记忆内容是静态的,忽视了动态操作,如更新、选择性保留和时间连续性。多轮对话基准(例如,LoCoMo,LongMemEval)通过跨越20-30轮的对话更好地反映了现实世界中的记忆使用,使得跨会话检索、记忆更新和事件推理的研究成为可能。然而,大多数评估仍然将对话历史视为静态上下文,狭隘地关注于QA准确性,而忽视了动态记忆操作,如索引、整合、遗忘或用户特定适应。这种狭隘的范围限制了我们对记忆如何随时间推移而发挥作用的理解,特别是在记忆必须随着用户的变化而演变的交互设置中。为了解决这些挑战,最近的工作探索了基于智能体的系统,这些系统将长期记忆集成到多轮规划和生成中。这种静态的视角限制了我们对模型如何随时间管理记忆的理解,尤其是在需要时间适应的交互设置中。

记忆检索与记忆引导生成之间的错位揭示了利用瓶颈。 为了更好地理解记忆利用中的性能瓶颈,我们比较了最近研究中报告的检索和生成的最新结果,如图4所示。结果表明,在2Wiki和MemoryBank等数据集上,尽管最新模型在Recall@5上超过了90,但生成指标(例如F1)却落后30多分。这突显了高可检索性并不一定转化为有效的生成。造成这一差距的因素有几个:紧凑的记忆格式(例如,对话轮次或任务级观察)比冗长的条目更有效地支持生成;记忆与查询之间的时间距离增加,即使在检索准确的情况下,也会导致生成质量下降;检索更多条目会引入噪声,损害解码;多语言评估暴露了语言差距。这些发现表明,尽管当前系统可以检索相关的记忆内容,但在有效组织和利用这些内容以进行下游生成任务方面仍然存在不足。

img

当前基准测试中记忆操作的评估不足。 尽管对增强记忆的模型的兴趣日益浓厚,但目前的评估主要集中在检索准确性(例如,Recall@k,Hit@k,NDCG)和检索后生成质量(例如,F1,BLEU,ROUGE-L)上。虽然一些研究纳入了对可记忆性、一致性和正确性的人工评估,但这些工作在很大程度上忽视了记忆使用的过程性方面,如整合、更新、遗忘和选择性保留。一些近期的努力,如MemoryBank和ChMapData-test,开始解决记忆更新和长期规划的某些方面,但仍然是孤立和狭隘的范围。迫切需要全面的基准测试,涵盖参数、上下文非结构化和结构化记忆,以及动态评估协议,评估记忆可靠性、时间适应性和跨会话对话一致性,而不仅仅是静态的QA准确性。

出版趋势。 如图3所示,检索和生成在最近的文献中占主导地位,尤其是在自然语言处理领域。核心操作如整合和索引在机器学习中受到更多关注,而遗忘则较少被探索。个性化主要由于实际应用需求而局限于自然语言处理。在引用影响力方面,整合、检索和集成发挥了关键作用,推动了记忆感知微调、摘要、增强生成和提示融合等方面的进展。

img

💡 设计动态和统一的基准,评估不同记忆类型的记忆操作,同时捕捉超越对话的长期时间动态。
💡 通过增强记忆格式、控制检索粒度和建模时间可靠性,解决检索与生成之间的脱节。
💡 通过跨会话记忆重用和自适应用户建模,推进个性化的记忆中心智能体。

长上下文

在会话式搜索中管理大量多源外部记忆,在长上下文语言理解方面带来了重大挑战。尽管模型设计和长上下文训练的进步使得大模型能够处理数百万的输入 token,但在如此庞大的上下文中有效管理记忆仍然是一个复杂的问题。这些挑战大致可以分为两个主要方面:1)参数效率,关注于优化 KV 缓存(参数记忆),以实现高效的长上下文解码;2)上下文利用,优化大模型对各种外部记忆(上下文记忆)的管理能力。本节系统性地回顾了应对这些挑战的相关工作。

参数效率

为了管理大量多源外部记忆,大模型必须被优化以高效处理长上下文。本节从记忆的角度讨论高效处理长上下文的方法,重点关注键值(KV)缓存优化。KV 缓存旨在通过将过去的键值对作为外部参数记忆存储,最小化不必要的键值计算。然而,随着上下文长度的增加,存储这些记忆所需的内存呈二次增长,使得处理极长上下文变得不可行。

KV 缓存丢弃

KV 缓存丢弃旨在通过移除不必要的 KV 缓存来减少缓存大小。静态丢弃方法以固定模式选择不必要的缓存。例如,StreamingLLM 和 LM-Infinite 使用 \(\Lambda\) 形稀疏模式,而 LCKV 仅保留顶层的 KV 缓存。相比之下,动态丢弃方法更为灵活,可根据查询或推理过程中的模型行为(如注意力权重)决定要移除的 KV 缓存。考虑到丢弃 KV 缓存可能导致信息丢失,合并方法(如 MiniCache、InfiniPot、CHAI)通过合并相似的 KV 缓存或用特殊 token 存储 KV 缓存(如 Activation Beacon),以减少信息损失,而不是直接丢弃。

KV 缓存存储优化

KV 缓存存储优化考虑到移除不太重要元素时可能导致的信息丢失,重点在于如何以更小的占用空间保留整个 KV 缓存。例如,LESS 和 Eigen 将不太重要的缓存条目压缩为低秩表示,而 FlexGen、Atom、KVQuant、ZipCache、KIVI 动态量化 KV 缓存以减少内存分配。这些方法相比于 KV 缓存丢弃方法提供了更小的性能下降,但由于内存增长的二次性质仍然有限。未来的工作应继续关注更少的内存成本和更小的性能下降之间的权衡。

KV 缓存选择

KV 缓存选择指的是选择性地加载所需的 KV 缓存以加快推理速度,重点在于 KV 缓存的内存检索。QUEST、TokenSelect 和 Selective Attention 采用查询感知的 KV 缓存选择来检索关键的 KV 缓存以加速推理。类似地,RetrievalAttention 采用近似最近邻(ANN)搜索关键 KV 缓存。通过将 KV 缓存存储在外部内存中并在推理时检索相关的 KV 缓存,Memorizing Transformers、LongLLaMA、ReKV 和 ArkVale 能够高效处理长上下文。这些方法提供了更大的灵活性,因为它们避免了驱逐 KV 缓存,并且有可能与存储优化技术集成(例如,QUEST 与 Atom 兼容)。

上下文利用

除了优化语言模型以获得长上下文能力外,优化上下文记忆的利用率还提出了另一个重要挑战。

上下文检索

上下文检索旨在增强大模型从上下文记忆中识别和定位关键信息的能力。基于图的方法,如 CGSN 和 GraphReader,将文档分解为图结构以进行有效的上下文选择。基于 token 的上下文选择方法(如 TRAMS、Selection-p、PASTA)修剪和(或)选择被认为最重要的 token。相比之下,NBCE、FragRel 和 Sparse RAG 等方法在片段级别进行上下文选择,根据其对特定任务的重要性选择相关的上下文片段。此外,基于训练的方法如 Ziya-Reader 和 FILM 通过专门的数据训练大模型,以帮助提高其上下文选择能力。其他方法如 MemGPT、Neurocache 和 AWESOME 保留外部向量记忆缓存,以有效地将首次编码的外部记忆存储和检索到向量空间中,并且可以有效地更新或检索以实现长期记忆的利用。通过这些方法,大模型能够更好地通过记忆检索识别上下文中的关键信息。

上下文压缩

上下文压缩利用记忆压缩操作来优化上下文记忆的利用率,通常涉及两种主要方法:软提示压缩和硬提示压缩。软提示压缩侧重于在推理阶段将输入 token 的块压缩为连续的向量(如 AutoCompressors、xRAG、CEPE),或在训练阶段将特定于任务的长上下文(如数据库模式)编码为微调模型的参数记忆中(如 YORO),以减少输入序列的长度。

值得注意的是,特定于任务的方法(如 YORO)将长上下文(如数据库模式)存储在微调的语言模型的参数记忆中,这是在训练阶段而不是推理阶段应用软提示压缩。

而硬提示压缩则是直接将较长的输入块压缩为较短的自然语言块。基于丢弃的方法选择性地修剪无信息的 token(如 Selective Context、Adaptively Sparse Attention、HOMER)或块(如 Semantic Compression)以缩短输入。基于摘要的方法(如 RECOMP、CompAct、Nano-Capsulator、LLMLingua 系列)则通过抽象关键信息来压缩长输入。混合方法(如 TCRA-LLM)结合了丢弃无信息 token 和抽象上下文块的特征,以增强上下文压缩。通过软提示和硬提示,大模型能够更有效地通过记忆压缩利用上下文。

讨论

在上下文中迷失。

尽管有报道称上下文长度可以延伸到数百万个 token,但在问答和键值检索等任务中,长上下文大模型被发现会遗漏上下文中间的关键信息。这种“迷失在中间”的问题在管理大量外部记忆时尤为严重,因为重要信息可能位于长上下文中的各个位置。此外,在更复杂的场景中,基于上下文记忆的推理要求,大模型也未能有效地聚合来自上下文不同部分的记忆。此外,尽管较大的检索集可以获得更高的召回率,但无关信息会误导大模型并损害生成质量。有效的上下文利用成为解决这些局限性的关键挑战,包括跨记忆操作的上下文检索和上下文压缩。

压缩率与性能下降之间的权衡。

压缩作为长上下文记忆中涉及的主要记忆操作之一,广泛用于压缩参数记忆(KV 缓存)和上下文记忆(上下文),以平衡效率(压缩率)和有效性(性能下降)。不同的基于压缩的策略各有利弊。例如,KV 缓存丢弃方法通常实现更高的压缩率,但导致更大的信息丢失,从而导致更显著的性能下降。 \citet{yuan-etal-2024-kv} 对这些不同策略进行了普遍的基准测试,从定性上展示了不同策略的利弊。如图6所示,通常,KV 缓存存储优化方法(标有 'x' 的标记)在有效性和效率之间实现了最佳权衡。相比之下,KV 缓存丢弃方法(标有 \(\nabla\) 的标记)更灵活,具有完全可定制的压缩率,但效果较差。另一方面,与压缩参数记忆相比,压缩上下文记忆(标有 \(\Delta\) 的标记)效果较差,这在 LLMLingua2 的相对较差表现中得到了证明。

img

发表趋势。

图5 总结了关于长上下文的发表趋势。NLP 社区更多地关注于上下文记忆的利用,而 ML 社区则更多地致力于通过参数记忆提高效率。从 RCI 的角度来看,KV 缓存存储优化主导了关于长上下文主题的讨论。这种主导不仅是因为它在效率和有效性之间的平衡,还因为它与其他长上下文方法的兼容性。相比之下,检索方法的关注度普遍较低。这在一定程度上是由于上下文检索与其他主题(如长期记忆和多源记忆)之间的重叠,导致在图5中上下文检索的被低估。此外,理解 RAG 与长上下文之间的关系对于基于记忆的人工智能系统的发展至关重要。然而,在复杂环境中对上下文利用的深入研究仍然缺乏。填补这一空白是一个有价值的未来研究方向。

img

参数化记忆

修改参数记忆(即编码在大模型参数中的知识)对于动态适应存储的记忆至关重要。参数记忆修改的方法大致可以分为三类:
(1)编辑,即在无需完全重新训练模型的情况下对模型参数进行局部修改;
(2)遗忘,选择性地移除不需要或敏感的信息;
(3)持续学习,在减轻灾难性遗忘的同时,逐步纳入新知识。

本节系统回顾了这些类别中的最新研究,详细分析和对比将在后续小节中展开。

编辑

参数记忆编辑是在无需完全重新训练的情况下,更新存储在参数记忆中的特定知识。一种重要的研究方向是直接修改模型权重。主流策略是“定位-再编辑”方法,先通过归因或追踪找到事实存储的位置,然后直接修改识别到的记忆。另一种方法是元学习,通过编辑器网络学习预测目标权重的变化,实现快速且稳健的修正。部分方法则完全避免修改原始权重。基于提示的方法通过精心设计的提示(如ICL)间接引导输出。附加参数方法则通过添加外部参数记忆模块来调整行为,无需更改模型权重。这些方法在效率和可扩展性上各有差异,但大多聚焦于实体级别的编辑。

遗忘

参数记忆遗忘实现了选择性遗忘,即移除特定记忆的同时保留无关记忆。近期工作探索了多种策略。附加参数方法通过添加如logit差分模块或遗忘层等组件,无需整体重训练即可调整记忆。基于提示的方法通过操控输入或使用ICL等方式外部触发遗忘。“定位-再遗忘”方法先定位负责的参数记忆,再进行有针对性的更新或停用。基于训练目标的方法则通过修改训练损失函数或优化策略,显式地促进记忆遗忘。这些方法旨在根据明确的遗忘目标擦除记忆,同时保留非目标知识,并在效率与精度之间取得平衡。

持续学习

持续学习使模型参数能够长期保持记忆,通过缓解灾难性遗忘实现知识的持续积累。主要有两类方法:基于正则化和基于重放。正则化方法通过约束重要权重的更新,保护关键参数记忆;如TaSL、SELF-PARAM、EWC和POCL等方法无需重放即可嵌入知识。相比之下,重放方法通过重新引入过去样本来强化记忆,尤其适合在训练过程中纳入检索到的外部知识或历史经验。例如,DSI++利用生成式记忆,通过伪查询补充学习,无需完全重训练即可保持检索性能。除此之外,基于智能体的工作如LifeSpan Cognitive System(LSCS)将持续学习扩展到交互场景,使智能体能够通过实时经验逐步获取和巩固记忆,展示了如何将外部记忆持续编码进模型参数。

讨论

SOTA方案分析

我们选取了不同类别下的最新SOTA方法,并在最常用的数据集上报告其表现:用于记忆编辑的CounterFact和ZsRE,以及用于记忆遗忘的ToFU。为保证公平对比,我们采用一致的基础模型和合适的评估指标。具体来说,CounterFact和ZsRE均随机选取2000个样本进行更新,每次编辑100个样本。CounterFact上的所有方法均使用GPT-J作为基础模型;ZsRE上大多数方法使用GPT-2,MELO除外(使用T5-small)。ToFU基准上所有方法均在LLaMA2-7B-chat模型下的10%遗忘设置下评测。

img

基于提示的方法在所有基准上整体表现较强,而元学习方法通常表现不及其他方法。我们观察到,同一方法在ZsRE上的表现通常低于CounterFact,主要原因是ZsRE的特异性分数显著较低,进而拉低了整体分数。这凸显了实现精确、定向编辑的挑战,表明提升特异性仍是未来有前景的研究方向。此外,我们发现当前大多数SOTA方法在ToFU基准上得分很高,说明该基准可能难度不足,需要新的遗忘基准来揭示真实的局限性。

规模挑战

img

img

图8展示了不同方法支持的最大序列编辑次数。除MemoryLLM支持高达65万次更新外,大多数方法仅测试了1000至5000次编辑。我们还注意到,关于序列遗忘的研究仍然稀缺,是未来值得探索的方向。
图9展示了不同方法所用模型规模的分布。在编辑和遗忘任务中,非提示类方法通常应用于中小模型(≤20B),而提示类方法更常在大模型上评测,可能因为其依赖更强的指令跟随和上下文学习能力。非提示方法则因计算成本高,难以扩展到大模型。这表明,如何平衡模型规模与编辑或遗忘的效果和效率,仍需进一步研究。

发表趋势

img

图7展示了编辑、遗忘和持续学习领域中部分论文(RCI>1)的发表统计。在这些领域中,编辑方法最受关注,尤其是“定位-再编辑”和“附加参数”类别。NLP社区对编辑相关主题的参与度更高,而ML领域的贡献则在三大方向上较为均衡。值得注意的是,“定位-再编辑”类别的RCI方差最大,说明该领域有若干极具影响力的工作。虽然遗忘方法的数量较少,但在目标和附加参数类别中展现出较高影响力,显示出进一步探索的潜力。相比之下,持续学习领域仍相对欠缺关注。

💡 当前编辑方法常常缺乏特异性,而如TOFU等遗忘基准可能过于简单,难以揭示真实局限。

💡 当前智能体通过交互积累记忆,未来持续学习应避免覆盖模型参数中的持久记忆。

多源记忆

多源记忆对于现实世界 AI 部署至关重要,系统必须能够对内部参数和外部知识库进行推理,这些知识库涵盖结构化数据(如知识图谱、表格)和非结构化多模态内容(如文本、音频、图像、视频)。本节从跨文本整合和多模态协同两个维度,探讨了关键挑战。

跨文本整合

跨文本整合使 AI 系统能够从多个文本来源进行更深层次的推理和冲突解决,从而支持更具上下文基础的响应。

推理 关注于整合多种格式的记忆,以生成事实和语义一致的回答。一类研究探索了不同领域记忆的推理,特别是通过对结构化符号记忆的精确操作。其他工作则研究了领域特定参数化记忆的动态整合,以实现更灵活的推理。多源推理还涉及跨多种文档来源的推理。此外,还有研究通过从结构化和非结构化来源检索信息,实现异构知识整合。尽管这些工作在结合参数化和外部记忆进行推理方面取得了进展,但在异构多源记忆上的统一推理仍是一个重大挑战,尤其是在有效整合参数化记忆与结构化和非结构化外部知识方面。

冲突 在多源记忆中,指的是在检索和推理异构记忆表示时出现的事实或语义不一致。这些冲突通常出现在整合参数化和上下文记忆,或结合结构化与非结构化知识(如三元组、表格和自由文本)时。已有工作主要关注于识别和定位这些不一致。例如,有方法提出了评估模型检测上下文矛盾能力的框架,也有研究指出模型更倾向于内部知识而非检索内容,强调了来源归因和信任校准的重要性。这些方法为理解记忆冲突奠定了基础,但大多仍局限于静态场景或单一来源推理。

多模态协同

随着增强记忆系统向多模态设置发展,关键挑战在于如何对文本、图像、音频和视频等异构模态进行融合和检索。

融合 是指对来自不同模态的信息进行对齐。从记忆的角度来看,融合是一个关键机制,用于随时间整合跨模态信息。现有的方法大致可以分为两类。第一类关注于 统一语义投影,模型如 UniTransSeR、MultiInstruct、PaLM-E 和 NExT-Chat 将异构输入嵌入到共享表示空间中以便于重用和查询。
第二类强调长期的跨模态记忆整合。例如,LifelongMemory 引入了一种具有持久记忆的变压器,以积累跨患者记录的视觉-文本知识。类似地,MA-LMM 维护一个多模态记忆库,以扩展对长视频的时间理解。尽管在对齐模态方面有效,但当前的融合方法在支持长期多模态记忆管理方面往往力不从心。关键挑战包括动态记忆更新和在异构来源之间保持一致性。

检索 在多模态系统中,使得能够访问存储在文本、图像和视频等模态中的知识。大多数现有方法依赖于基于嵌入的相似性计算,基于视觉-语言模型如 QwenVL、CLIP 或其他多模态模型。这些模型将异构输入投影到共享的语义空间中,从而实现跨模态检索。例如,VISTA 通过视觉标记表示增强检索,而 UniVL-DR 通过统一的双重编码器集成视频和语言。最近,IGSR 通过引入意图感知的贴纸检索,将检索扩展到多会话对话,尽管它仍然基于相似性检索。然而,这些方法仅限于浅层嵌入相似性,缺乏对基于记忆的、推理感知的检索的支持。此外,尽管音频和感知运动信号对于在具身和多轮场景中实现基础和长期交互至关重要,但它们仍然在很大程度上未被探索。

讨论

多源记忆整合的趋势。 最近的研究揭示了多源记忆在组织、检索和推理方面的持续演变。尽管在 跨文本整合多模态协同 上提出了多种方法,但对代表性模型的深入分析(图12, 13, 14)突显了共同的挑战和新兴的趋势。这些发展反映了一个更广泛的转变,即从静态检索管道向动态、上下文敏感的记忆系统转变,后者能够支持跨任务和会话的时间基础、跨来源推理。

img
img
img

跨文本整合 涉及两个关键设计轴:来源类型和推理机制。早期模型如 ChatDB 和 EMAT 使用通过显式查询访问的符号记忆(如数据库、表格),提供了透明性但在开放域设置中可扩展性有限。更近期的系统如 StructRAG、DelTA 和 Chain-of-Knowledge 采用非结构化记忆和神经检索,结合了基于注意力的融合和思维链推理。然而,大多数仍将记忆视为静态,与实时推理脱节。更新的模型如 MATTER、GoG 和 ZCoT 开始朝着推理感知记忆的方向发展,使用检索-生成循环和协作代理动态演化记忆。尽管有这种转变,但跨异构来源解决冲突仍然是一个主要挑战。检索到的内容和参数化内容经常在没有一致性检查或来源归因的情况下合并,导致幻觉和事实漂移。初步解决方案如多步骤冲突解决和认知校准是有希望的,但缺乏可扩展性。未来的工作应追求集成的、冲突感知的记忆系统,能够在不确定性和来源模糊的情况下进行动态推理。

多模态记忆协同 在融合、检索和时间建模三个关键维度上取得了进展。如图14所示,常见策略包括联合嵌入和提示级融合,而最近的方法如基于标识符的记忆和跨模态图融合则实现了更具选择性和任务自适应的整合。检索已从静态相似性演变为时间上下文化的方法,包括时间图和时间感知注意力,促进了对扩展交互的推理。值得注意的是,60% 的调查模型编码了时间信息,强调了时间在长时间任务中的重要性。除了检索和融合,操作控制(如记忆更新、索引和压缩)变得越来越重要。尽管早期系统(2022-2023 年)主要集中在检索上,但较新的代理如 E-Agent 和 WorldMem 采用自我维护的架构,随着时间的推移不断完善记忆内容。例如,WorldMem 压缩多模态日志,而 E-Agent 动态更新内部记忆以支持长远规划。这些系统突显了从被动记忆查询向主动的、操作丰富的架构转变。

出版趋势。 如图11所示,跨文本推理在出版量上占主导地位,反映了其在多源整合中的基础性作用。融合研究,特别是受 CLIP 驱动的工作,在多模态学习中表现出最高的引用影响力和影响力。相比之下,动态检索和冲突解决仍然未被充分探索。总体而言,这些趋势表明,该领域正从表层的集成过渡到更深入的、操作感知的、时间结构化的记忆架构。

img

💡 使能具有冲突感知的记忆系统,具备明确的来源归因和跨异构表示的一致性验证。

💡 开发支持索引、更新和压缩的自我维护架构,以实现长期跨会话记忆。

💡 将时间基础和多模态协同整合到统一的记忆推理中,以应对长时间和现实世界任务。

实践中的记忆

在应用层面,具备记忆能力的 AI 系统通过利用参数化、结构化和非结构化的记忆格式,支撑了广泛的应用场景,包括知识推理、个性化、任务完成和多模态交互。这些系统可以根据其主要的记忆模式和应用重点进行大致分类。知识中心系统将通用知识编码进模型权重,主要依赖参数化记忆。这种方式支持编程、医疗、金融和法律等领域的应用。例如,经过指令微调的模型能够适应特定领域的提示,实现专业场景下的准确检索与推理。用户中心系统利用上下文记忆来建模用户偏好和行为历史,实现个性化对话和自适应辅导。这类系统通常需要持续更新记忆,以保持与用户需求的同步。任务导向代理集成结构化记忆(如键值存储或工作流图),以维持会话连续性并支持长周期推理,常见于项目管理或虚拟助手场景。多模态系统则在多种模态(如语言、视觉、音频)间结合参数化和上下文记忆,以支持在复杂环境下的连贯交互,如自动驾驶或医疗决策。

在这些应用中,记忆不仅是被动的存储,更是推理、规划和自适应的积极推动者。随着 AI 代理面对日益复杂的任务,参数化与上下文记忆的稳健整合对于长期能力和泛化至关重要。

产品

当记忆能力使 AI 系统能够生成连贯、个性化和目标导向的行为时,记忆在实际中才具有重要意义。在产品层面,增强记忆的系统通常分为两类:用户中心产品,通过构建持久的用户模型实现长期个性化和情感交互;任务导向产品,通过集成结构化记忆模块管理多轮上下文,确保任务可靠完成。用户中心产品包括 AI 伴侣(如 Replika),通过维护长期交互历史模拟情感连续性,以及推荐系统(如亚马逊),利用行为轨迹优化个性化内容推送。虚拟助手(如 Me.bot 和腾讯 ima.copilot)则动态更新用户状态,实现主动和目标自适应响应。相比之下,任务导向系统实现了结构化记忆流程,包括对话历史、语义任务表示和用户交互记录,这些机制支持多轮一致交互和长周期任务规划。代表性系统包括 ChatGPT、Grok、GitHub Copilot、Coze 和 CodeBuddy,它们通过记忆实现自适应推理、持续代码生成和连贯对话管理。

这些产品共同展示了记忆架构在实际系统中的具体实现方式,如何实现长期个性化、一致交互和自适应任务执行,体现了记忆集成对用户体验、功能性和实际 AI 应用可靠性的深远影响。

工具

围绕长期上下文管理、用户建模、知识保持和自适应行为,已经形成了分层的记忆中心 AI 系统生态。该生态分为三层:基础组件(如向量库、LLM、检索器)、用于记忆操作的模块化框架、以及用于编排和持久化的记忆层系统

组件。 基础组件为记忆中心系统提供了基础设施,包括向量数据库(如 FAISS)、图数据库(如 Neo4j)、大语言模型(如 Llama、GPT-4、DeepSeek)。检索机制(如 BM25、Contriever、OpenAI 向量嵌入)实现了对外部记忆的语义访问。这些组件为构建如知识落地、相似性搜索和长上下文理解等记忆能力提供了计算基础。

框架。 在核心基础设施之上,框架为记忆相关操作提供了模块化接口。例如 Graphiti、LlamaIndex、LangChain、LangGraph、EasyEdit、CrewAI 和 Letta。这些框架将复杂的记忆流程抽象为可配置的管道,使开发者能够构建多模态、持久且可更新的记忆模块,并与 LLM 代理交互。

记忆层系统。 这些系统将记忆作为服务层进行操作,提供编排、持久化和生命周期管理。工具如 Mem0、Zep、Memary 和 Memobase 专注于维护时间一致性、按会话或主题索引记忆,并确保高效回忆。这些平台通常结合符号和子符号记忆表示,并为记忆的访问和操作提供内部 API。

人类与智能体记忆系统的比较

人类和智能体的记忆系统都旨在通过编码和检索过去的信息来支持学习、推理和决策。尽管在体现形式和基础结构上存在差异,但它们在功能上表现出显著的相似性。两者都跨越多个时间层级——短期和长期,并采用关联结构以促进信息的检索和泛化。在认知科学中,人类记忆通常被分为工作记忆和长期记忆系统,如情景记忆和语义记忆;而智能体则结合了短暂的上下文窗口与持久的外部或参数化记忆模块。两种系统都不是完美的,容易出现回忆不准确或干扰,并且越来越能够整合多模态输入,如自然语言、视觉和声音。

然而,人类与智能体的记忆系统在基础层面上存在显著差异,这些差异主要由生物学约束与工程架构所塑造。这些分歧贯穿于记忆操作的各个方面,包括存储与巩固机制、索引与检索过程、遗忘模式以及记忆更新或压缩策略。为系统性地进行比较,表2总结了这些在不同维度上的区别。

img

这些对比突显了记忆架构如何受到其底层载体的影响,同时也带来了更深层次的挑战,尤其是在AI系统变得更加持久、以智能体为中心并对行为产生影响时。特别是,内部记忆痕迹的反复重用可能会逐渐使智能体偏向某种特定的行为轨迹,随着时间推移有效地塑造出一种隐含的身份。同样,基于优化的遗忘或压缩可能会移除低频但在情感或社会上具有重要意义的数据,尤其是在交互式或安全关键的场景下。当前大多数系统在解决新输入与既有记忆之间冲突时,仍依赖启发式方法,缺乏明确的仲裁机制。随着智能体积累长期记忆,解决这些挑战对于确保其在现实世界部署中的一致性、可解释性和鲁棒性变得愈发重要。

挑战与未来方向

本节概述了核心记忆主题中的开放挑战,并提出了未来的研究方向。随后,我们探讨了更广泛的视角,包括生物启发模型、终身学习、多智能体记忆以及统一记忆表示,这些都进一步扩展了记忆系统的能力和理论基础。综合来看,这些讨论为推进 AI 中可靠、可解释和自适应记忆的发展提供了路线图。

主题相关方向

设计以记忆为中心的 AI 需要解决核心局限性和新兴需求。在 RCI 分析和趋势的指导下,我们概述了塑造未来记忆研究的关键挑战。

需要统一评估以解决长期记忆中的一致性、个性化和时间推理问题。 现有基准很少评估动态、多会话环境下的巩固、更新、检索和遗忘等核心操作。这一缺口导致了检索-生成不匹配问题,即由于记忆维护不善,检索到的内容往往过时、无关或不一致。解决这些问题需要时间推理、结构感知生成和检索鲁棒性,以及支持跨会话个性化复用和自适应记忆管理的系统。

长上下文处理:效率与表达能力的权衡。 扩展记忆长度加剧了计算成本与建模精度之间的权衡。诸如 KV 缓存压缩和循环记忆复用等技术提升了效率,但可能导致信息丢失或不稳定。同时,在多源或多模态环境中进行复杂推理,需要选择性上下文整合、来源区分和注意力调节。平衡上下文带宽与任务相关性和稳定性的机制亟需建立。

参数记忆修改虽有前景,但在可控性、擦除和可扩展性方面仍需进一步研究。 当前的编辑方法往往缺乏针对性,而现有的遗忘基准过于简单,难以揭示真实局限。大多数方法难以扩展到数千次编辑或支持超大模型。此外,终身学习仍然研究不足。未来工作应开发更现实的基准、提升效率,并将编辑、遗忘和持续学习统一到一个框架中。

多源整合:一致性、压缩与协调。 现代智能体依赖异构记忆——结构化知识、非结构化历史和多模态信号——但面临冗余、不一致和来源模糊等问题。这些问题源于时间范围不一致、语义冲突和归因缺失,尤其在跨模态时更为突出。解决这些问题需要冲突解决、时间定位和溯源跟踪。高效的索引和压缩对于多会话环境下的可扩展性和可解释性也至关重要。

更广阔的视角

除了上述核心主题外,一系列更广泛的视角正在出现,进一步丰富了以记忆为中心的 AI 研究格局。

时空记忆 不仅捕捉信息之间的结构关系,还关注其随时间的演化,使智能体能够在保留历史上下文的同时自适应地更新知识。例如,AI 系统可能记录用户曾经不喜欢西兰花,但后来根据最近的购买行为调整记忆。通过同时维护历史和当前状态的访问,时空记忆支持基于时间的推理和细致的个性化。然而,高效管理和推理长期时空记忆仍是关键挑战。

参数知识检索。 尽管近期的知识编辑方法声称能够定位和修改特定表征,使模型能够从自身参数中选择性检索知识仍是一个开放问题。高效的潜在知识检索与整合有望显著提升记忆利用率,并减少对外部索引和记忆管理的依赖。

终身学习。 智能体需要持续整合新信息,同时保留已有知识,这要求记忆系统在稳定性和可塑性之间实现平衡。参数记忆支持权重内知识适应,但易遗忘;结构化记忆(如知识图谱、表格)支持模块化、定向更新;非结构化记忆(如向量库或原始对话历史)提供灵活检索,但需要动态压缩和相关性过滤。将这些记忆类型整合到持续学习框架下,并结合巩固、选择性遗忘和交替训练等机制,是构建具备长期记忆管理能力的自适应、个性化终身智能体的关键。

生物启发的记忆设计。 生物系统中的记忆为构建更具韧性和自适应性的 AI 记忆架构提供了重要启示。大脑通过互补学习系统管理稳定性-可塑性难题:海马体编码快速变化的情节体验,皮层则缓慢整合稳定的长期记忆。受此启发,AI 模型日益采用双重记忆架构、突触巩固和经验回放等机制以缓解遗忘。认知概念如记忆再巩固、有限记忆容量和知识分区进一步为更新感知检索、高效存储和情境敏感泛化等策略提供了理论基础。

与此同时,K-Line 理论指出,分层记忆结构是生物认知的基础。这些结构使人类能够在不同抽象层次上高效组织记忆,如婴儿将“苹果”“香蕉”等具体物体归为“水果”“食物”等更广泛类别。为 AI 系统构建分层记忆以实现可扩展性和高效性,带来了新的挑战和未来研究方向。

统一记忆表示。 参数记忆提供紧凑、隐式的知识存储,外部记忆则提供显式、可解释的信息。统一它们的表示空间并建立联合索引机制,对于实现高效的记忆巩固和检索至关重要。未来工作可聚焦于开发支持共享索引、混合存储和跨模态、跨知识形态记忆操作的统一记忆表示框架。

多智能体系统中的记忆。 在多智能体系统中,记忆不仅是个体的,也是分布式的。智能体需管理自身内部记忆,同时与他人互动和学习。这带来了记忆共享、对齐、冲突解决和一致性等独特挑战。高效的多智能体记忆系统应支持个体经验的本地保留和通过共享记忆空间或通信协议实现的全局协调。未来可探索去中心化记忆架构、跨智能体记忆同步和集体记忆巩固,以实现协作规划、推理和长期协调。

记忆威胁与安全。
记忆极大提升了大模型的实用性,使其能够提供最新和个性化的响应,但其管理仍是关键的安全问题。记忆常常存储敏感和机密数据,使得信息的添加或删除操作变得极为复杂。近期研究揭示了记忆处理中的严重漏洞,尤其是在旨在选择性擦除数据的机器遗忘技术中。多项研究表明,这些方法易受恶意攻击,因此亟需更安全、可靠的记忆操作机制。

posted @ 2025-07-20 12:21  一介布衣、  阅读(270)  评论(0)    收藏  举报