RoboOS:一种用于跨体与多智能体协作的分层具身框架

https://arxiv.org/abs/2505.03673

https://github.com/FlagOpen/RoboOS

摘要

具身智能的兴起为新一代工业生态系统中的多智能体协作带来了前所未有的需求,推动了自主制造、自适应服务机器人以及网络物理生产架构等范式的变革。
然而,当前的机器人系统仍面临诸多局限,例如跨体适应性不足任务调度效率低下以及动态纠错能力有限
端到端的视觉-语言-动作(VLA)模型在长时序规划任务泛化方面表现不佳,而分层VLA模型则缺乏跨体兼容性和多智能体协同能力。
为应对这些挑战,我们提出了RoboOS,这是首个基于大脑-小脑分层架构的开源具身系统,实现了从单智能体到多智能体智能的范式转变。
具体而言,RoboOS包含三大核心组件:

  1. 具身大脑模型(RoboBrain):一个用于全局感知与高层决策的多模态大语言模型(MLLM);
  2. 小脑技能库:一个模块化、即插即用的工具包,支持多技能的无缝执行;
  3. 实时共享内存:用于多智能体状态协调的时空同步机制。

通过分层信息流的集成,RoboOS实现了具身大脑与小脑技能库的高效衔接,支持长时序任务的稳健规划、调度与纠错,并通过实时共享内存保障多智能体的高效协作。
此外,我们还增强了边缘-云通信与云端分布式推理能力,以支持高频交互和大规模部署。
在餐厅、家庭和超市等多种真实场景下的大量实验表明,RoboOS能够支持包括单臂、双臂、人形和轮式等多种异构体的协作,展现出极强的跨体适应性和实用性,推动了具身智能的前沿发展。

引言

具身智能的快速发展正在为工业自动化、服务机器人和智能制造带来变革性的时代,在这一背景下,强大的多智能体协作变得至关重要。
尽管取得了显著进步,当前的机器人系统仍面临诸多挑战,包括跨体适应性差、任务调度效率低以及动态纠错能力不足。
端到端的视觉-语言-动作(VLA)模型(如OpenVLA、RDT-1B、\(\pi_{0}\)等)在长时序规划和任务泛化方面表现不佳,而分层VLA框架(如Helix、Gemini-Robotics、GR00T-N1、Hi-Robot和\(\pi_{0.5}\)等)则在跨体兼容性和大规模多智能体协作方面存在碎片化和难以扩展的问题。
这些问题凸显了亟需一种统一的系统,能够桥接高层认知与低延迟执行,并促进异构机器人之间的无缝协作。

为了解决上述难题,我们提出了RoboOS,这是首个基于生物启发的大脑-小脑分层架构的开源具身系统,实现了从单智能体到多智能体智能的范式转变。
RoboOS创新性地引入了三大核心组件:

  1. 具身大脑模型(RoboBrain):一个多模态大语言模型(MLLM),负责全局感知(包括三维场景重建和历史状态追踪)与高层决策,实现多智能体任务分解和具身感知的轨迹生成,并通过实时重规划动态纠错;
  2. 小脑技能库:一个模块化、即插即用的工具包,支持异构体(如单臂、人形机器人等)低延迟执行,包括操作(VLA工具、专家工具)、导航(VLN工具、SLAM)和专用技能等;
  3. 实时共享内存:一个时空同步中枢,维护空间记忆(如空间关系、物体与机器人的位置)、时间记忆(如任务反馈、工具调用历史)和具身记忆(如运动域、关节状态、电池电量),以实现故障预测和多机器人负载均衡。

此外,RoboOS通过边缘-云通信和云端分布式推理优化了系统的可扩展性,确保高频交互和大规模部署,依托Flagscale框架实现云端推理的高效扩展。
在工业装配、家庭服务等多种真实场景下的大量实验验证了其在异构机器人(如双臂机械臂、轮式平台等)间的广泛适用性。
例如图1,在“苹果与刀协作递送”任务中,RoboOS通过共享内存动态分配子任务给三台不同机器人(Unitree人形、AgileX双臂、RealMan单臂),实现了RoboBrain的任务分解与小脑技能库的无缝协作。
img
我们的主要贡献总结如下:

  • 我们提出了RoboOS,首个基于大脑-小脑分层架构的开源具身系统,实现了从单智能体到多智能体智能的范式转变。
  • 我们精心设计了RoboOS的三大核心组件:具身大脑模型、小脑技能库和实时共享内存,并针对边缘-云通信和分布式推理进行了优化,提升了系统性能与可扩展性。
  • 在餐厅、家庭和超市等多种真实场景下的大量实验,验证了RoboOS在单臂、双臂、人形和轮式等多种异构体间的适应性和性能,展现了其在跨体协作中的有效性,推动了具身智能的实用化与规模化发展。

相关工作

多模态大语言模型
近年来,视觉-语言模型(VLM)在多模态理解方面取得了显著进展。无论是专有模型还是开源替代方案,都通过在大规模图文对上的预训练,在视觉问答(VQA)、图像描述和多模态对话等任务上设立了新标杆。具备推理能力的模型表明,后训练的强化学习(RL)能够显著提升数学和编程能力。基于RL的推理型多模态大语言模型在多模态推理任务中同样表现优异。然而,将这些能力迁移到具身智能系统仍面临挑战。已有工作探索了将视觉-语言理解与机器人特定技能(如长时序任务规划和轨迹生成)相结合。将推理增强型多模态大语言模型扩展到具身场景,成为一个极具前景的研究方向。

视觉-语言-动作(VLA)模型
在VLM能力的基础上,研究者们开发了面向机器人操作任务的视觉-语言-动作(VLA)模型。目前的VLA模型主要分为以下几类:
端到端VLA模型直接将视觉和文本输入映射为动作,采用回归、扩散或混合方法。虽然在短期任务中表现良好,但在长时序规划和泛化能力上存在不足。
分层VLA模型通过模型级或任务级分层,将长时序任务分解为子任务,部分缓解了上述问题。然而,这类方法在跨体兼容性和多智能体协作方面仍面临挑战。
为解决这些问题,我们提出了RoboOS,这是首个支持跨体与多智能体协作的开源分层具身框架,实现了多模态大语言模型与VLA之间的结构解耦与功能协同。

多机器人协作
多机器人协作(MRC)已在诸多应用场景中得到广泛研究。相关研究主要聚焦于协调、通信和任务分配,以提升整体效率。MRC在自动化仓储、搜救和环境监测等领域展现出巨大潜力。强化学习和模仿学习等方法进一步提升了多机器人协作的能力。
尽管取得了进展,MRC在跨体适应、任务分配和动态规划等方面仍面临挑战,影响了实时协作的效果。本文提出的RoboOS采用分层架构,针对上述问题进行了优化,并增强了边缘-云通信能力,以支持大规模部署。

方法

在本节中,我们首先介绍所提出的 RoboOS 框架,并解释其三大核心组件的功能。随后,详细阐述RoboOS在多机器人协作中的主要工作流程管线,重点说明分层信息交互的实现方式。最后,我们介绍边缘-云通信与云端分布式推理的优化方案,以保障高频交互和大规模部署能力。
img

RoboOS 框架。 RoboOS采用大脑-小脑分层架构,支持多机器人协作,包含三大核心组件:a) 云端具身大脑模型,负责高层认知与多智能体协调;b) 分布式小脑模块,实现机器人专属技能的执行;c) 实时共享内存,增强环境感知能力。

RoboOS 框架

如上图所示,RoboOS 是一个基于生物启发的大脑-小脑分层架构的统一具身系统,包含三大核心组件:具身大脑模型(RoboBrain)、小脑技能库和实时共享内存。通过FlagScale工具包进行部署,RoboOS的边缘-云架构可同步多智能体的认知,实现无缝协作。

系统运行流程如下:首先,具身大脑模型负责全局任务管理,包括多机器人任务规划、工具调用、时空记忆更新和基于三重反馈的自适应纠错。其次,小脑技能库部署在各机器人终端,通过标准化机器人配置文件提供模块化、即插即用的功能。最后,基于Redis优化的共享内存维护空间关系、操作状态和历史数据的动态知识库,支持实时决策。该架构确保了大规模部署的鲁棒性,同时保持了具身AI系统所需的低延迟交互。

具身大脑模型(RoboBrain)
云端部署的多模态大语言模型(MLLM)可选用现有主流模型。为适应具身场景,我们采用RoboBrain作为具身大脑模型,并针对RoboOS框架进行了能力增强。在RoboBrain原有的单机器人规划、可供性预测和轨迹预测基础上,我们通过多阶段训练提升了多机器人任务规划、基于智能体的工具调用和时空记忆更新能力。主要增强包括:多机器人任务规划(利用实时共享时空记忆预测协作任务的工作流拓扑)、基于智能体的工具调用(根据反馈自我纠错,动态管理智能体与工具)、时空记忆更新(根据子任务执行和工具反馈实时更新共享内存)、低层引导(在工具执行过程中预测可操作区域和轨迹,辅助操作)。

小脑技能库
该模块化、即插即用的具身工具包支持多种机器人形态(如单臂、双臂、轮式、人形等),实现任务周期内的低延迟操作与导航。小脑技能库涵盖三大方面:操作类(集成专家工具和VLA工具)、导航类(支持传统SLAM与视觉-语言导航工具)、以及专用技能(如复杂接触、柔性物体处理、灵巧手控制等)。标准化的工具与机器人配置文件确保了异构平台间的无缝集成与互操作性。

实时共享内存
该组件维护空间、时间和机器人记忆,实现多机器人间的鲁棒协调与自适应决策。

  • 空间记忆:以动态场景图表示,分层结构包括楼层、房间和物体节点。每个节点编码位置、可供性和语义标签,边表示空间或功能关系。场景图由多视角RGB-D输入通过分割和特征聚合构建,并通过几何聚类和开放词汇语义对齐融合。
  • 时间记忆:记录任务执行历史、反馈、工具调用日志等,支持自适应决策。
  • 机器人记忆:存储实时系统属性,如运动域约束、关节状态、电池电量等,优化任务分配。

RoboOS 工作流管线

RoboOS在多机器人任务分配中展现出高并发性和灵活性。为便于说明,以下以单一全局任务为例,详细阐述RoboOS的整体工作流程。

img

RoboOS 工作流管线。 RoboOS的多机器人协作流程包括四个关键阶段:(1) 分层任务分解,(2) 拓扑感知的子任务分配,(3) 分布式智能体执行,(4) 动态记忆更新。该流程实现了任务的协同完成,并适应环境与操作约束的变化。

步骤1:全局任务分解
接收到全局任务指令 \(T_{\text{global}}\) 后,RoboOS通过RoboBrain发起检索增强生成(RAG)流程,查询共享空间记忆,提取环境相关信息 \(M_s\)。该信息与:(i) 先前任务执行的状态反馈 \(M_t\)(存储于共享时间记忆),(ii) 机器人运行状态 \(S_r\)(如空闲、忙碌、离线),(iii) 机器人技能库 \(M_r\),以及 (iv) 全局任务 \(T_{\text{global}}\) 融合。RoboBrain处理这些输入,生成结构化推理轨迹 \(\mathcal{R}\) 和子任务图 \(\mathcal{G}\)

公式

其中 \(\oplus\) 表示多模态输入的拼接或融合。

步骤2:拓扑子任务分配
Monitor根据有向无环图 \(\mathcal{G}\) 中的拓扑依赖关系,动态并行调度和分配子任务。每个子任务分为两类:(1) 单机器人子任务 \((d, r_i)\),由机器人 \(r_i\) 在拓扑深度 \(d\) 处独立执行;(2) 协作子任务 \((d, r_{i:j})\),需多机器人协同完成。Monitor采用并行分配(同层独立子任务并发执行)和顺序分配(后续子任务需等待前置任务完成)策略,确保依赖约束。系统支持多子任务图的并发管理,实时适应机器人状态和任务依赖的动态变化。

步骤3:分布式子任务智能体
每个子任务由专属机器人智能体负责执行。智能体根据:(1) 先前执行反馈,(2) 工具调用历史,(3) 局部空间记忆,自动选择技能库中的工具,形成闭环推理,实现动态纠错。例如,在“寻找鸡蛋并放置到桌上”任务中,智能体会依次调用检测工具,若在厨房未找到鸡蛋,则利用空间记忆推断可能位置(如冰箱),并选择导航工具前往,体现了通过迭代工具调用实现的自适应恢复。

步骤4:动态记忆更新
机器人感知与操作后,场景图实时增量更新。新观测或交互(如移动、填充)会即时修改节点属性和空间边。例如,将杯子放到架子上后,其位置和支撑关系会被更新。遮挡与历史感知修正机制确保了对象临时不可见时的连续性。此外,反馈、工具调用历史和机器人状态会被记录到时间记忆和机器人记忆中,支持长期任务的持续学习。

边缘-云部署

基于并行训练与推理框架FlagScale,RoboOS支持多机器人系统的边缘-云协作,构建了统一的具身智能基础。针对“多机器人、多模态、多任务”场景,系统具备卓越的可扩展性和超低延迟响应。在边缘部署中,机器人注册后自动与云端RoboBrain建立双向通信,通过高效的发布-订阅机制实现实时任务调度与状态反馈(平均命令响应延迟小于0.001秒)。

为管理长期运行中产生的大量感知与行为数据,FlagScale内置了内存优化的数据访问引擎,支持TB级历史数据的内存级随机访问,便于任务回放、异常溯源和跨任务知识迁移。此外,FlagScale支持分布式设备上的大模型并行推理与多任务协同调度,充分释放RoboBrain的系统潜能。

实验

实现细节

img

训练数据集分布。

数据集详情
如上图所示,RoboBrain-1.5-OS模型是在Qwen2.5-VL-7B的基础上训练得到,训练数据集分为三类:VLM数据集、机器人数据集和RoboOS增强数据集。

  1. VLM数据集:按能力类型组织,包括General-873k(提升通用问答能力)、ScanView-318k(提升多视角场景感知)、VG-326k(提升目标定位中的视觉定位能力)、Spatial-R-1005k(空间推理)、Temporal-R-525k(时序推理)。所有数据均经过严格清洗,确保模型在增强定位和时空推理能力的同时,保留强大的问答能力。

  2. 机器人数据集:针对四大核心机器人操作能力精心筛选,包括Planning-700k(提升长时序任务规划)、Pointing-537k(提升空间位置感知)、Affordance-373k(预测可交互物体的可供性区域)、Trajectory-428k(预测完整操作轨迹以保证执行成功)。

  3. RoboOS增强数据集:我们在RoboOS框架下引入了多机器人任务规划和基于智能体的工具调用。具体地,设计了68种多机器人协作任务类型,涵盖超市、家庭和餐厅场景,利用大模型生成了4.5万条样本(Multi-Robot-45k),每条样本包含详细的场景图、机器人规格和长时序协作任务,答案则给出推理过程和子任务工作流图。此外,构建了Robotic-Agent-144k数据集,为每个子任务生成正确的观测-动作对(正样本)和带有概率性错误的观测-动作对(负样本)。

训练策略
RoboBrain-1.5-OS模型的训练分为三个阶段。第一阶段,使用大规模高质量VLM数据集(300万条)提升基础感知与推理能力。第二阶段,采用精心采样的机器人数据集(230万条),并混入10%的第一阶段数据防止遗忘。第三阶段,使用RoboOS增强数据集(24.9万条),并分别混入2%和3%的前两阶段数据以提升适应性。训练过程中,采用Zero3分布式策略,在20台服务器(每台8张A800显卡)上进行,更多细节见附录。

评测指标
多机器人规划采用准确率(AR)评估RoboOS中的基于智能体的工具调用。指向预测采用Where2Place基准,使用AR衡量命中目标掩码的准确性。可供性和轨迹预测采用ShareRobot基准,可供性以mAP(不同IoU阈值)衡量,轨迹预测则用离散Fréchet距离(DFD)、Hausdorff距离(HD)和RMSE进行宏观和微观分析。为更好评估自主轨迹预测,评测时移除了初始起点提示。

具身能力评测结果

为评估RoboBrain-1.5-OS(RoboOS的核心组件)的具身能力,我们选取了参数规模相近的主流VLM(如LLaVA-OneVision-7B、Qwen2.5-VL-7B)和更大规模的LLM(如Qwen3-14B、DeepSeek-V3-685B)作为通用基线,同时对比了RoboPoint-14B、RoboBrain-1.0等具身智能基线。如下表所示,RoboBrain-1.5-OS在多机器人规划上表现突出,准确率比Qwen2.5-VL-7B高28.14%,比DeepSeek-V3-685B高5.53%,显著提升了RoboOS的能力。在指向、可供性和轨迹预测上也全面超越所有基线,分别比RoboBrain-1.0提升3.64%、16.96%和40.77%,展现了多项具身能力的领先水平。

模型/指标 餐厅 家庭 超市 平均AR↑ 已见指向 未见指向 指向平均↑ 可供性mAP↑ 轨迹DFD↓ 轨迹HD↓ 轨迹RMSE↓
通用基线
Llava-OneVision-7B 11.31 8.26 9.33 9.63 55.54 48.48 53.42 11.37 0.3558 0.3310 0.2749
Qwen2.5-VL-7B 43.22 59.30 58.29 53.60 57.20 47.60 54.32 14.06 0.2964 0.2751 0.2254
Qwen3-14B 47.74 63.82 43.22 51.60 × × × × × × ×
DeepSeek-V3-685B 69.85 83.92 74.87 76.21 × × × × × × ×
具身基线
RoboPoint-14B -- -- -- -- 46.77 44.48 46.08 -- -- -- --
RoboBrain-7B-1.0 17.59 12.06 10.55 13.40 54.64 49.45 53.09 27.10 0.1910 0.1710 0.1330
RoboBrain-7B-1.5-OS 78.39 86.93 79.90 81.74 57.23 55.57 56.73 44.06 0.0994 0.0966 0.0801

表:四项核心具身能力的性能对比。 粗体为最佳结果。

真实场景多机器人协作演示

为展示RoboOS的多机器人协作能力,我们在餐厅、家庭和超市三种场景下进行了演示。

  • 餐厅场景:Unitree G1人形机器人与Agilex双臂机器人协作完成“我饿了,点一个普通汉堡”的任务。RoboBrain-1.5-OS负责场景感知推理,将任务分解为汉堡制作和递送等子任务。
  • 家庭场景:Realman单臂机器人与Agilex双臂机器人协作完成“给我一个橙子和一把刀”等任务。
  • 超市场景:RoboBrain-1.5-OS协助顾客挑选礼物,分析尺寸与袋子兼容性,协调Realman和Agilex机器人,Agilex执行“打开礼品袋”等技能,Realman完成礼物挑选与放置。

未来,RoboOS有望支持三台及以上机器人更复杂的协作,进一步推动具身智能与机器人领域的发展。

img

真实场景RoboOS演示。 展示了三种场景下的多机器人协作:(a) 餐厅:Unitree G1与Agilex协作制作汉堡;(b) 家庭:Realman与Agilex协作取物;(c) 超市:机器人协作完成礼物挑选与包装。

结论

在本文中,我们提出了 RoboOS,一个开源的具身系统,旨在提升工业生态系统中的多智能体协作能力。RoboOS 采用大脑-小脑分层架构,有效克服了适应性和任务调度方面的挑战。系统包含具身大脑模型(负责决策)、小脑技能库(负责技能执行)以及实时共享内存(用于多智能体协调)。三者的集成实现了复杂任务的高效规划与动态纠错。大量真实世界实验展示了 RoboOS 在多种机器人形态下的广泛适用性,推动了具身智能的发展。

posted @ 2025-06-13 15:15  一介布衣、  阅读(412)  评论(0)    收藏  举报