RoboMemory:一种受大脑启发的面向物理实体系统中的终身学习的多记忆智能体框架
摘要
我们提出了RoboMemory:一种受大脑启发的多记忆框架,面向物理实体系统中的终身学习,解决了真实环境中的关键挑战:持续学习、多模块记忆延迟、任务相关性建模,以及闭环规划中的无限循环问题。RoboMemory基于认知神经科学,集成了四大核心模块:信息预处理器(类丘脑)、终身实体记忆系统(类海马体)、闭环规划模块(类前额叶)和低层执行器(类小脑),以实现长期规划与经验积累。终身实体记忆系统作为核心,通过空间、时间、情节和语义四个子模块的并行化更新与检索,缓解了复杂记忆框架下的推理速度瓶颈。该系统引入动态知识图谱(KG)和统一架构设计,提升了记忆一致性与可扩展性。在EmbodiedBench基准测试中,RoboMemory平均成功率较开源基线(Qwen2.5-VL-72B-Ins)提升25%,较闭源SOTA(Claude3.5-Sonnet)提升5%,创下新SOTA。消融实验验证了关键组件(评论员、空间记忆、长期记忆)的有效性,真实机器人部署则证实了其终身学习能力,在重复任务中成功率显著提升。RoboMemory有效缓解了高延迟难题,具备良好可扩展性,为物理机器人多模态记忆系统集成提供了基础参考。
引言
受视觉-语言模型(VLM)快速发展的推动,基于VLM的智能体已越来越多地应用于具身任务,利用其预训练知识和多模态理解能力与物理环境交互。
当前研究主要聚焦于在虚拟仿真器或受控真实环境中的单一任务性能优化,或依赖过于简化的记忆框架。这些框架缺乏建模不同任务间依赖关系的机制。实际上,真实世界中的具身智能体需要在整个生命周期内运行,处理顺序任务,其中先前经验(如“学会打开冰箱”以取出苹果)会直接影响后续表现(如高效获取类似容器中的其他物品)。这要求长期记忆系统不仅能保留经验,还能捕捉跨任务影响,实现累积式提升,而非孤立地完成单一任务。
此前将记忆系统集成到具身框架的工作推动了长期规划和终身学习的发展。然而,大多数工作集中在虚拟环境,难以泛化到真实世界。面向真实世界的具身框架则缺乏关键的记忆模块。另一方面,复杂的记忆架构又会带来高昂的延迟,难以实际应用。
为解决上述问题,我们提出了RoboMemory,一种面向真实世界终身学习的类脑多记忆框架。该架构高度并行、分层,支持真实环境中的长期规划与终身学习。借鉴认知神经科学,RoboMemory包含四大核心组件(见图1):信息预处理器(类丘脑)用于多模态整合;终身实体记忆系统(类海马体)为核心,采用三层结构(长期、短期、工作记忆)组织经验数据和对象空间关系,通过并行化记忆范式统一各模块的信息更新与检索,缓解延迟;闭环规划模块(类前额叶)负责高层动作序列规划;低层执行器(类小脑)。为实现稳健的真实部署,RoboMemory采用双系统架构,上层(具身智能体)输出抽象高层动作,下层由视觉-语言-动作(VLA)模型结合SLAM系统将其转化为机器人可执行的低层指令。
我们在EmbodiedBench长时规划基准环境中验证了RoboMemory(不含执行器)。结果显示:以Qwen2.5-VL-72b为主干,RoboMemory平均成功率较基础模型提升25%,较闭源SOTA Claude-3.5-sonnet提升5%。此外,我们在真实环境中测试了RoboMemory,连续执行15个不同任务两轮(一次学习、一次测试),通过对比两次表现,验证了RoboMemory在真实世界具备基本的终身学习能力。我们还进行了消融实验以量化各组件贡献,并通过全面的错误分析揭示局限性。综上,我们的贡献体现在三个方面:
- 受大脑统一记忆机制启发,设计了包含空间、时间、情节、语义四个并行模块的终身实体记忆系统。该系统支持各模块并行更新与检索,缓解复杂系统中的延迟累积,同时促进知识的统一整合,实现终身学习。
- 提出了一种基于检索的增量知识图谱(KG)更新算法,实现动态空间记忆的高效一致更新。该算法通过检索相关子图、检测局部冲突并合并新信息,缓解了传统增量策略在动态环境下的可扩展性瓶颈。
- RoboMemory实现了真实物理机器人中的终身学习:可在不重置记忆的情况下连续执行多样化任务,经验积累带来性能稳步提升,展现了实际场景下的长期自主学习能力,减少对仿真预训练的依赖。
相关工作
具身任务中的VLM/LLM智能体框架
随着VLM/LLM的快速发展,涌现了多种具身环境下的智能体框架。具身任务通常具有部分可观测性和长时规划需求,因此需要记忆系统保留上下文信息。一些方法采用时序上下文缓冲区作为短期记忆,以应对VLM/LLM长上下文处理能力有限的问题;另一些方法则采用经验缓冲区作为长期语义记忆。对于长时任务,技能库被用作程序性记忆,智能体通过交互不断积累技能。近期有工作尝试集成多种类型的记忆,但多集中于虚拟或GUI环境,尚未充分探索真实世界中支持长期规划的多模态记忆系统。
视觉-语言-动作模型
当前VLA模型主要通过模仿学习,将语言和视觉输入映射为低层控制指令,但多局限于桌面任务和单步动作,难以实现长时规划。VLA模型缺乏长期执行能力,而高层智能体则擅长规划。近期有工作将高层框架与VLA执行器结合,有些还引入了简单记忆以支持更长任务。但在真实机器人中,仍需更复杂的记忆系统以应对持续多任务操作和长期运行。
记忆框架
许多工作通过记忆系统提升长期规划能力:Voyager在Minecraft中采用技能库,但缺乏多样化记忆类型;CoELA集成了程序性、语义和情节记忆,并配有任务相关的二维地图;MSI-Agent利用洞察作为长期记忆以实现任务内学习。Hippo RAG借鉴海马体结构,引入知识图谱作为长期记忆索引,提升检索能力。然而,现有方法多关注于用静态长文本(如书籍)构建KG,难以动态更新。对于具身任务,我们需要能够动态更新KG的信息。我们的方案基于LLM,构建了更通用的记忆系统,采用类似Hippo RAG的动态KG,专为具身任务设计。
RoboMemory
如图2所示,RoboMemory 的核心设计是一种统一的记忆范式。该范式旨在简化记忆操作:在更新时,仅处理与新信息相关的记忆项;在检索时,通过基于规则的信息聚合提升效率。下文将详细介绍各组件的具体设计,以及它们如何在该框架下集成,实现真实世界中的终身学习。
信息预处理器
在每个时间步 \(i\),RoboMemory 接收视觉观测 \(\mathcal{O}_i\)——在仿真中为单帧 RGB 图像,在真实机器人上为摄像头采集的短视频片段——捕捉智能体在执行动作时所见内容。
信息预处理器作为系统的感知前端,将多模态输入转化为可索引、可检索的文本。为降低延迟,预处理器并行运行两个轻量级模块:
- 步骤摘要器 \(\mathcal{S}\):将 \(\mathcal{O}_i\) 转化为对刚刚执行动作的简明文本描述 \(s_i\)。该字符串 \(s_i\) 作为系统的工作记忆存储。
- 查询生成器 \(\mathcal{Q}\):基于同一观测 \(\mathcal{O}_i\) 生成查询 \(q_i\),用于检索长期记忆中的相关片段。
\(\mathcal{S}\) 和 \(\mathcal{Q}\) 共同为 RoboMemory 的检索机制提供了高效的文本接口,实现从原始感知数据到记忆系统的快速对接。
终身具身记忆系统
RoboMemory 集成了包含空间、时间、情节和语义四个模块的终身记忆系统。四模块结构旨在支持动态真实环境下的持续学习。为缓解多次调用 VLM 带来的延迟,我们将四个模块的更新与检索流程统一为单一范式,并并行实现。如图2所示,所有模块均可并行进行更新和检索,因此即使包含多个记忆组件,整体框架也能避免延迟累积。
终身具身记忆系统中的各记忆模块具有三种更新频率:
- 动作级:每执行一个动作更新一次;
- 任务级:仅在每个任务完成后更新;
- 混合级:既在动作级也在任务级进行更新。
时空记忆系统
为适应动态真实世界环境,我们设计了时空记忆系统。空间记忆和时间记忆均以动作级频率进行更新。
时间记忆 采用先进先出(FIFO)缓冲区,容量为 \(N\)。该缓冲区可存储 \(N\) 条步骤摘要 \(s_{[i:i+N]}\)。当缓冲区满时,将被全部清空。随后,利用大语言模型对被丢弃的 \(N\) 步短期记忆进行总结,生成一个新的记忆实体,并插入缓冲区首位。
空间记忆 是一个基于知识图谱(KG)动态更新的模块,旨在解决大语言模型难以从时间记忆中隐式提取空间信息的问题。该系统动态记录场景中的空间关系,并高效维护动态 KG。与以往面向静态信息收集的 KG 构建算法不同,我们的空间记忆需要高频率地更新。为加速 KG 的更新过程,我们设计了两阶段渐进式方法:
- 快速响应阶段:新信息被迅速缓冲,避免观测丢失;
- 局部整合阶段:当缓冲区饱和或检测到冲突时,对受影响的局部子图进行整合(实体去重、关系合并、冲突检测)。
该算法将 KG 的更新范围限定在相关环境区域。每次更新仅处理相关片段,从而控制效率并优化上下文长度。算法伪代码如下所示。为展示动态空间记忆的增长过程,我们在附录中给出了示例。
我们的基于检索的增量 KG 更新算法具有可证明的效率保证。具体而言,对于包含 \(n\) 个节点、最大度为 \(D\) 的 KG,每次更新所需处理的节点数被 \(O(D^K)\) 所界定,其中 \(K\) 为检索的跳数(详见附录的形式化证明)。这确保了空间记忆随时间增长时的可扩展性。
终身学习系统
在真实世界场景中,智能体需要在其生命周期内连续处理多个任务,并通过以往经验不断提升自身能力。借鉴认知心理学对人类长期记忆的分类,我们将系统划分为情节记忆和语义记忆:前者记录智能体与环境的交互历史,后者则从经验中提炼洞见,支持长期任务推理。该更新过程类似于人类在睡眠中对日常经验的巩固。
情节记忆: 记录任务级别的交互,关注同一环境下顺序任务之间的时间依赖关系。智能体需要记住自己曾经做过什么,以便完成后续任务。此外,任务级的交互可以作为参考,帮助智能体未来优化规划。
语义记忆: 累积逐步动作的使用经验(基于已调用的动作及其结果),用于指导动作编排。在每个任务结束后,系统会对时间记忆进行总结,提炼已完成任务的成功经验,并从失败案例中归纳原因和改进策略,从而实现动作级和任务级的持续学习。
在实现上,情节记忆和语义记忆均采用统一的 RAG(检索增强生成)框架,包括信息抽取器、更新器和 RAG 存储(每条为一个记忆实体)。每个任务结束后,抽取器会将该任务的时空记忆总结为新的记忆实体。RAG 随后检索与新实体相似的已有实体(旧信息),更新器根据新信息对旧记忆实体进行删除、添加或更新。最后,将更新后的记忆实体写回 RAG。由于仅对与新信息相关的旧实体进行更新,避免了全量遍历,保证了高效性。
面向动态环境的闭环规划模块
闭环规划模块整合了空间-时间记忆提供的当前任务信息、长期记忆中记录的语义和情节信息,以及当前观测,用于动作规划。每一步动作都经过规划后传递给低层执行器执行。
为实现具身环境中的闭环控制,闭环规划模块采用了“规划器-评论员”机制。在每个规划步骤中,规划器会生成包含多步的长期计划。然而,由于具身环境的动态性,长期计划中的动作序列在执行过程中可能会失效。因此,在执行每一步之前,评论员模块会评估当前步骤的动作在最新环境下是否仍然合适。如果不合适,规划器会基于最新信息重新规划。该过程如图2所示。
实验发现,原始的“规划器-评论员”机制可能会陷入无限循环。在原始机制中,规划器输出的动作序列的第一步会被评论员评估,如果评论员持续要求重新规划,则可能导致始终无法执行任何动作。为了解决这一问题,我们对该机制进行了修改:第一步动作不再由评论员评估。这样即使评论员持续要求重新规划,RoboMemory 也能保证动作被实际执行。
低层执行器
RoboMemory 框架采用两层分层智能体结构。这一设计使 RoboMemory 能够在真实世界中完成更长期的任务。上层仅负责高层规划,而低层执行器则在真实环境中执行上层规划的动作。
在真实世界实验中,我们采用 \(\pi_0\) 作为动作执行器:RoboMemory 规划的动作通过低层执行器转化为机械臂和底盘的运动,并通过 LoRA 微调以优化在真实机器人任务中的表现。更多细节见附录「环境设置」部分。
实验
实验设置
基准测试
为了评估 RoboMemory 的任务规划能力,我们从 EmbodiedBench 中选择了 EB-ALFRED 基准测试的一个子集。我们选择了 Base 和 Long 子集,因为它们旨在测试智能体的规划能力。Base 和 Long 子集包含 100 个复杂的长期具身任务。EB-ALFRED 环境提供了一个与真实世界高度相似的视觉操作环境(环境细节见附录),能够与现有基线方法直接对比。
此外,我们还在 EB-Habitat 基准上评估了 RoboMemory 的能力。详细结果见附录。
我们还搭建了真实世界环境,用于测试 RoboMemory 在现实中的终身学习能力。
设置与基线
为便于对比,我们考虑了两类基线方法。首先,我们选择先进的闭源和开源 VLM 作为单智能体,与 RoboMemory 进行性能对比。闭源 VLM 包括 GPT-4o、GPT-4o-mini、Claude3.5-Sonnet、Gemini-1.5-Pro 和 Gemini-2.0-flash。开源 VLM 包括 LLama-3.2-90B-Vision-Ins、InternVL-2.5-78B/28B、InternVL-3-72B 和 Qwen2.5-VL-72B-Ins。其次,我们选择了三种智能体框架:
- Reflexion:引入了简单的长期记忆和自反思模块,通过自反思总结经验作为长期记忆提升模型能力;
- Voyager:采用技能库作为程序性记忆,是具身智能体规划常用的基线;
- Cradle:提出了通用智能体框架,集成情节和程序性记忆,在多模态智能体任务中表现优异。
在实验中,各智能体框架均采用 Qwen2.5-VL-72b-Ins 作为主干模型。Qwen2.5-VL-72b-Ins 是高性能的开源替代方案,在多个基准任务中表现接近先进闭源 VLM。我们使用 Qwen3-Embedding 模型为 RoboMemory 的 RAG 创建嵌入向量。对于低层执行器,由于 EB-ALFRED 提供了高层动作 API,我们直接采用 EmbodiedBench 提供的低层执行器,而非 VLA 方法。
评估指标
我们采用两个评估指标来衡量性能:
- 成功率(SR):每个难度级别下完成任务的数量与总任务数之比,反映智能体在随机生成场景中完成任务的能力。
- 目标条件成功率(GC):每个场景中已达成的中间条件数量与该场景最大可能得分之比。GC 达到 100% 表示任务在该场景下被完全完成。
这两个指标的计算方式如下:
其中,\(\mathcal{X}\) 表示测试子集,\(x\) 表示一个测试任务。成功条件数(\(SCN_x\))指智能体已完成的条件数量,全局条件数(\(GCN_x\))表示完成任务所需的总条件数。当 \(SCN_x = GCN_x\) 时,任务被认为是成功的。
主要结果
如表 1 所示,我们的模型在 EB-ALFRED 基准上相较于单一 VLM 智能体和其他智能体框架均取得了显著提升。与 SOTA 单一 VLM-Agent Claude3.5-Sonnet 相比,基于 Qwen2.5-VL-72B-Ins 的 RoboMemory 平均成功率提升 5%,GC 提升 15%。这表明 RoboMemory 优于单一 VLM-Agent,证明基于开源模型的智能体框架可以超越闭源 SOTA 模型。此外,与其他 VLM-Agent 框架对比,RoboMemory 也有大幅提升。这是因为 RoboMemory 的类脑记忆系统为具身模型提供了更准确、持久的上下文信息。同时,规划器-评论员机制带来了闭环规划能力,使 RoboMemory 在长期任务中表现更优。RoboMemory 能检测并尝试克服潜在失败,在遇到意外情况时更具鲁棒性。
消融实验
我们在 EB-ALFRED 的 Base 和 Long 子集上系统验证了 RoboMemory 的有效性。我们逐步移除各个组件,观察在不同任务类别下的性能变化。我们采用成功率作为评估指标,结果如表 2 所示。
长期记忆
引入长期记忆显著提升了 RoboMemory 的成功率。实验表明,长期记忆使其在多次尝试任务过程中实现持续学习。语义记忆能够学习低层技能的属性,例如在何种情况下某个动作可能失败。时间记忆记录所有任务尝试(成功/失败),为任务层面提供宝贵经验,帮助总结如何成功完成任务。这使 RoboMemory 能预测动作结果,避免无效尝试,体现了其终身学习能力。
空间记忆
空间记忆对于具身智能体至关重要,尤其是当前预训练 VLM 空间理解能力有限。我们提出的动态 KG 更新算法,使 KG 驱动的空间记忆能够适应动态环境。这种空间推理能力帮助 RoboMemory 应对部分可观测的具身场景。
评论员模块
表 2 展示了去除评论员模块后的性能(55% 对比完整系统的 67%)。这一下降突显了评论员在闭环规划中的作用,使 RoboMemory 能够更好地适应动态环境。评论员帮助 RoboMemory 更快地从失败中恢复,并更好地应对突发情况。
错误分析
我们总结了 RoboMemory 在前述实验中的常见错误类型,主要分为三类:规划错误、推理错误和感知错误。
- 规划错误:规划器未能生成正确动作。
- 推理错误:即使输入信息(包括当前观测和记忆)正确,规划器和评论员也无法正确处理。
- 感知错误:为规划-评论员模块提供了错误的信息。
我们分析了 RoboMemory 在失败任务中的轨迹,并根据上述定义识别错误类型。单个任务可能包含多种错误。我们统计了每类错误的发生概率,以展示 RoboMemory 的优势与不足。结果如图 3 所示。
可以看到,在所有错误类型中,规划错误最为常见。这说明即使记忆模块能够为 RoboMemory 提供丰富的过往经验、空间和时间记忆,规划模块仍可能无法给出良好的动作计划,这可能与预训练基础模型的能力有关。
最常见的感知错误是幻觉错误。虽然部分幻觉可以通过评论员模块或记忆信息纠正,但仍有部分情况下,规划器忽略了所有来自记忆和评论员的洞见,导致任务失败。
真实机器人部署
环境设置
为评估 RoboMemory 在真实世界中的终身学习能力,我们设计了一个受 EB-ALFRED 和 EB-Habitat 启发的厨房环境。场景包含 5 个可导航点、8 个可交互物体,以及 10 余个不可交互但可能产生干扰的物品。环境如图4所示。在真实世界中,我们在动作执行期间采用连续视频作为 RoboMemory 的输入(而非动作后快照),以获得更连贯的时序感知。我们设置了三类任务(每类 5 个,共 15 个),难度与 EB-ALFRED Base 子集相当(平均最优轨迹长度 5-10 步)。更多硬件实验细节见附录。
为测试 RoboMemory 的终身学习能力,我们对每个任务连续执行两次,且不清空长期记忆。第一次和第二次尝试的成功率如图5所示。
主要结果
第二次尝试的成功率显著提升。这证明 RoboMemory 的长期记忆在真实具身环境中能够有效指导后续任务。主要观察包括:
- 闭环纠错:即使低层执行器(VLA 模型)失败,RoboMemory 也会尝试重试失败动作。
- 空间推理:RoboMemory 能通过记忆模块记住物体位置及空间关系。
- 终身学习:RoboMemory 能合理分析失败原因,并据此指导后续决策。
此外,我们观察到在真实环境中部署低层执行器时,任务成功率明显下降。这主要源于执行器本身的局限性:
- VLA 模型指令跟随能力不稳定: 抓取动作易失败或选错目标;
- 预训练 VLM 模型视频理解能力有限: 虽然能识别静态物体,但难以理解动态视觉信息(如动作失败或状态变化)。
这些问题共同导致其在真实环境中的表现低于仿真环境。
结论与未来工作
总之,RoboMemory 是一种受大脑启发的多记忆框架,能够在真实世界具身系统中实现终身学习和长期规划,解决了持续学习、记忆延迟、多任务相关性建模以及规划无限循环等关键挑战。在 EmbodiedBench 基准测试中,RoboMemory 超越了 SOTA 闭源 VLM 和智能体框架,消融实验验证了评论员模块、空间记忆和长期记忆等关键组件的有效性。真实机器人部署进一步证实了其终身学习能力,在重复任务中成功率显著提升。尽管目前仍受限于推理错误和对执行器的依赖,RoboMemory 为通用可扩展的记忆增强型智能体奠定了基础,未来工作将聚焦于推理能力提升和执行器鲁棒性的增强。
当前具身任务分层智能体研究(包括本工作)尚未解决的一个关键问题,是高层智能体与低层执行器(如 VLA)之间的交互方式。现有大多数框架仅将语言指令作为高层智能体的动作指令,但部分动作细节难以用语言描述,其他模态(如视觉)能更好地表达这些细节(如抓取点)。本工作聚焦于智能体的长期规划与终身学习,未来可进一步探索通过改进 VLA 与 Agent 的交互方式,提升现有框架的泛化能力。