一种面向数据高效具身操作的原子技能库构建方法

摘要

实体操控是实体人工智能领域的一项基本能力。尽管当前的实体操控模型在特定环境中表现出一定的泛化能力，但由于现实世界场景的复杂性和多样性，它们在新环境和任务中仍面临挑战。传统的端到端数据收集和训练方式导致了对大量数据的需求。将端到端任务分解为原子技能有助于减少数据需求并提高任务的成功率。然而，现有方法受限于预定义的技能集，无法动态更新。为了解决这一问题，我们引入了一种三轮数据驱动的方法来构建原子技能库。我们使用视觉-语言-规划（VLP）将任务分解为子任务，然后通过抽象子任务形成原子技能定义。最后，通过数据收集和视觉-语言-动作（VLA）微调构建原子技能库。随着原子技能库通过三轮更新策略动态扩展，其能够覆盖的任务范围也自然增加。通过这种方式，我们的方法将重点从端到端任务转移到原子技能，显著降低了数据成本，同时保持了高性能，并能够有效适应新任务。在现实环境中的大量实验证明了我们方法的有效性和高效性。

1 引言

具身智能，主要指“具身人工智能”，在生成式人工智能时代取得了显著进展。通过将文本、图像和语音等多模态数据映射到一个统一的语义连续向量空间中，实现了领域无关的跨模态整合。这一空间紧密连接了语义离散符号空间与特征连续向量空间，为具身智能向通用形式发展提供了新的机遇。端到端的具身操作，尤其是视觉-语言-行动（VLA）模型，由于具身数据的可用性[O’Neill et al., 2023][Khazatsky et al., 2024]和多模态技术的进步，取得了显著进展，展示了越来越强的通用性和泛化能力，极大地提升了服务机器人实际应用的潜力。尽管当前的具身操作模型在特定场景中展现出一定的泛化能力，但在适应新环境和任务方面仍面临挑战[Black et al., 2024][Li et al., 2024]。值得注意的是，当前的具身操作模型以端到端为导向，数据收集和模型训练均基于特定的端到端任务。在科学研究中，可以手动定义一定数量的端到端任务作为标准，以促进算法性能的提升[Team et al., 2024][Liu et al., 2024]。然而，现实场景的多样性和复杂性使得端到端方法在通用具身操作的实际应用中不可行。一方面，现实任务无法穷举，而端到端方法无法将已学习的任务能力扩展到新任务。另一方面，随着任务复杂性的增加（例如更复杂的程序），任务的数据需求必须增加以保持满意的性能。这些问题使得每个任务都需要大量对应的新数据[Kim et al., 2024][Liu et al., 2024]，导致“数据爆炸”的风险，严重阻碍了具身操作模型的实际应用。
鉴于端到端方法的这些挑战，一个自然的解决方案是将端到端任务的执行分解为原子技能的序列执行[Diab et al., 2020][Mao et al., 2024]。这些原子技能更细粒度且通用，可以在不同场景和任务中重复使用。此外，通过我们的实验发现，将端到端任务映射为原子技能有助于减少数据需求并提高任务执行成功率[Team et al., 2024][Kim et al., 2024]。尽管之前关于原子技能的研究已证明其有效性，但它受到手动预定义特定技能的限制。预定义的技能集极其有限，无法动态更新和扩展，因此在现实世界的通用具身操作中仍然效率低下。实际上，基于当今强大的单模态和多模态理解与推理技术，自动任务分解、规划和技能定义是可行的。
基于原子技能的潜力以及现有技术的局限性，我们的工作专注于开发一种实用的原子技能库构建方法，以在现实场景中实现数据高效的具身操作。具体而言，所提出的方法由三个主要模块组成，称为“三轮驱动”方法，因为每个模块都可以随着相关技术的发展而更新。在训练阶段，视觉-语言规划（VLP）模块集成了视觉感知、语言理解和空间智能，用于将给定任务分解为多个子任务。这些子任务通过高层语义抽象模块映射为一组基于骨干VLA的可塑性和适应性的原子技能定义。针对自动生成的原子技能定义进行数据收集，用于VLA模块的小样本学习以实现技能库。与传统的端到端策略相比，我们的方法实现了数据收集效率的指数级提升，并实现了跨任务和跨场景的通用性。

本文的贡献

我们提出了一种新颖的三轮驱动框架，结合负责任务分解和规划的VLP模块与负责技能执行的VLA模块，以数据驱动的方式构建原子技能库。
基于这一框架，我们实现了一个能够有效任务分解和实时规划的VLP代理，以及一种将子任务映射到一组通用原子技能定义的语义抽象策略，结合微调VLA，实现了实用的原子技能库构建方法。
据我们所知，我们是首批尝试通过原子技能库方法解决具身操作方法实际应用中数据爆炸问题的研究者之一。大量的现实场景实验表明，我们的原子技能库方法在显著降低数据成本的同时，展示了出色的任务执行能力。

2 相关研究

2.1 视觉-语言-动作模型（Vision-Language-Action Models, VLA）

最近的研究表明，VLA模型在实现端到端具身操作任务方面展现了显著的潜力。这些模型通常采用端到端训练范式，整合视觉、语言和动作数据，以理解并执行任务指令。这种多模态整合使机器人能够在动态和非结构化环境中处理复杂任务。例如，OpenVLA [Kim et al., 2024] 通过针对新场景的参数高效微调与量化技术实现了有效的机器人控制。同时，扩散模型 [Ho et al., 2020; Song et al., 2020; Rombach et al., 2022] 因其卓越的表达能力和高质量采样能力，已成为众多应用的骨干网络。在机器人领域，扩散模型已成为策略表示的首选，例如 Diffusion Policy [Chi et al., 2023] 率先利用条件去噪扩散过程对机器人行为进行建模，有效表征了视觉运动策略。Octo [Team et al., 2024] 是一个大规模通用策略模型，支持通过语言指令或目标图像实现多样化任务引导。RDT1B [Liu et al., 2024] 则利用扩散变换器（Diffusion Transformers, DiTs） [Peebles and Xie, 2023] 作为其可扩展的骨干网络，在双臂机器人平台上展现了卓越性能。最近，研究人员 [Black et al., 2024] 提出了一种基于流匹配的动作分块架构 [Zhao et al., 2023]，用于建模复杂的连续动作分布。尽管VLA模型在机器人控制方面取得了显著进展，但当前的具身操作方法仍面临关键挑战，特别是需要大量数据来有效学习和泛化复杂任务。尽管如此，本研究探索了将复杂任务分解为更小的原子任务，使机器人能够学习相应的原子技能。

2.2 视觉-语言-规划模型（Vision-Language-Planning Models, VLP）

VLP是指在具身操作中结合视觉信息和语言指令进行任务规划。面对现实任务时，直接的端到端执行具有挑战性，且往往表现不佳。这一缺陷使得有效的任务分解和规划迫在眉睫。UOF [Yang et al., 2021] 在复杂任务中引入了中间步骤的规划与控制，使机器人能够在多步任务中学习不同的结果。ECoT [Zawalski et al., 2024] 则采用了思维链（Chain-of-Thought, CoT）方法，训练VLA模型在执行机器人动作之前，对计划、子任务、动作以及视觉特征（如物体边界框和末端执行器位置）进行多步推理。RoboMatrix[Mao et al., 2024] 则直接利用专有的视觉语言模型（VLMs）进行任务分解，并基于物体存在的判断调用现有物体检测模型检查执行状态。尽管先前的VLP方法展示了一定的有效性，但它们仅限于基本的视觉信息（如物体和场景描述），缺乏对现实具身操作至关重要的空间智能。

2.3 原子技能（Atomic Skills）

由于现实场景中任务的复杂性，一些研究者尝试引入原子技能的概念进行任务分解。SkillMaN [Diab et al., 2020] 框架包含了一个具经验知识的模块，展示了如何使用工作流程和机器人轨迹执行一组技能。对于复杂任务，一些研究者 [Kroemer et al., 2021] 聚焦于任务的分层分解和机器人技能的可复用性。最近的研究通过使用代理自动将复杂任务分解为原子任务，而非依赖手动分解。例如，研究人员 [Zhao et al., 2022] 利用原语、技能分解与合成的概念分析机器人拆弹任务中的操作技能，并提出了一种基于知识的方法学习这些操作技能。RoboMatrix [Mao et al., 2024] 引入了元技能的概念，但其局限于手动预定义的技能集，未能有效解决数据爆炸问题，也不能支持VLP和VLA模块的更新。

3 方法

3.1 概述

我们的目标是开发一种数据驱动的方法来生成技能库，通过三个集成的子模块实现持续的自我更新。所提出方法的框架如图1所示。具体而言，对于用户提供的任务指令，VLP模块将指令分解为相应的子任务。接下来，一个高层语义抽象模块将这些子任务抽象为一组通用的原子技能定义。最后，我们收集数据并微调VLA模型以获取原子技能，最终构建一个全面的技能库。当面对新任务时，我们的框架调用VLP进行任务规划，并从技能库中检索相应的原子技能。如果所需的所有技能都已在库中涵盖，任务将无需额外的数据收集和微调即可执行。如果某一特定技能缺失，高层语义抽象模块将被激活以更新原子技能集，此时仅需要缺失技能的轨迹数据。例如，如果提出一个新任务“给客人倒一杯水”，而当前的原子技能库中已包含“拿起瓶子”和“对准杯子倾斜瓶子”这两个技能，则仅需新增一个“递送杯子”的技能即可。通过这种方式，我们的方法能够在极少甚至无需额外数据的情况下执行新任务，有效提高了数据效率和通用性。

3.2 VLP 代理轮

为了在训练阶段统一实现任务分解，并在推理阶段进行任务规划，我们构建了一个集成了视觉感知、语言理解和空间智能的 VLP 代理。如图 2 所示，给定基于文本的任务指令和基于图像的当前观察，我们引入了 Prismatic 模型 [Karamcheti et al., 2024]，一个现成的视觉语言模型（VLM），以生成与观察图像对应的场景描述。考虑到三维世界的空间复杂性，我们还设计了一种空间关系感知策略。首先，我们使用 Dino-X [Ren et al., 2024]，一个卓越的目标检测模型，来检测观察中与任务相关的对象，并以边界框的形式输出每个对象的位置。为了更精确地定位对象，我们使用 SAM-2 [Ravi et al., 2024] 来获取每个对象的精细分割掩码。然后，执行基于规则的算法来判断对象之间的空间关系。结合视觉感知与空间智能，我们将它们与任务指令一起输入 GPT-4，并提示其将任务分解为子任务并管理其执行顺序。特别设计的提示要求 GPT-4 顺序执行以下步骤：基于详细的任务描述生成完整的执行计划，并指定下一个需要执行的子任务。

通过这种方式，在构建原子技能库时，VLP 代理能够有效地将端到端任务分解为多个子任务。在实际推理过程中，VLP 代理提供关键的低频控制信号，以规划和指导高频原子技能的执行。

3.3 VLA 轮

对于所提出的数据驱动技能库生成方法，任何最先进的（SOTA）VLA方法都可以用于原子技能的构建。最初，VLA模型作为提示输入，辅助高层语义抽象模块将复杂子任务映射为一组结构化的原子技能定义。随后，VLA模型通过数据收集和少样本学习促进技能库的构建，从而实现高效且可扩展的技能获取。原子技能的粒度由VLA模型的性能决定，特别是其可塑性和适应性。VLA模型的可塑性反映了其从预训练状态有效地过渡到微调模型的能力，以适应新的机器人平台。另一方面，微调VLA模型的适应性展示了其处理多样化物体、场景和空间配置的能力。更高水平的可塑性和适应性导致原子技能定义的粒度更粗。例如，在RDT-1B模型的情况下，我们对其发布的预训练模型在40个A800 80GB GPU上进行了微调，以构建原子技能库。微调数据包括6,000个开源轨迹和2,000个专有轨迹，这些数据由使用Mobile ALOHA系统设计[Fu et al., 2024]并由agilex.ai制造的机器人收集。微调的VLA模型能够快速构建原子技能。我们验证了其在不同传感器、物体和场景中的性能。然而，我们注意到模型对目标物体位置的泛化能力有限，并且训练步数对其行为有显著影响。为了解决这些问题，我们进行了两个实验：首先，我们收集了一个包含不同物体位置的小数据集，并进行了少样本训练和测试。具体来说，轨迹数据是从桌子上的九个不同位置点收集的。结果表明，物体位置的泛化能力显著提高，成功抓取在整个由这九个点定义的区域内实现。其次，我们使用8个L40s GPU进行了少样本训练步数测试，将训练步数设置为1,000、2,000和4,000。我们的研究结果表明，1,000步训练在训练效果和持续时间之间提供了最佳的平衡。这些实验表明，预训练模型的可塑性以及微调模型对多样化物体、场景和空间位置的适应性对于技能库构建至关重要。这些因素作为高层语义抽象模块的输入，促进了子任务到一组原子技能定义的映射。从原子技能定义到技能库的构建，我们采用了VLA模型的少样本微调方法，利用少量收集的轨迹数据对每个定义的原子技能进行微调。这种方法允许快速实现原子技能，显著加速了技能库的开发过程。

3.4 原子技能轮

构建原子技能库的过程如图1所示。对于一组任务（A、B、……、N），VLP模块将这些任务分解为相应的子任务（#1、#2、#3、#4、#5、……、#a、#a+1）。接下来，高级语义抽象模块用于以一定的粒度将这些子任务抽象为一组通用的原子技能定义，这一粒度由不同VLA模型的性能决定。这可以通过使用类似GPT-4的大型语言模型（LLM）实现。原子技能定义包括1、2、3、4、5、……、b、b+1。通过数据收集和对VLA模型的微调，我们最终可以得到一个原子技能库 1’、2’、3’、4’、5’、……、b’、b+1’。当面对新任务TASK N+1时，可能会出现两种情况。第一种情况是新任务所需的原子技能已被现有原子技能库覆盖，我们的方法可以直接执行任务，无需进一步调整。第二种情况是库中缺少特定的原子技能，此时再次使用高级语义抽象模块。它将新任务（N+1）的子任务、所需技能粒度以及当前的原子技能定义集作为输入，生成更新的原子技能定义集。随后，仅需要对缺失的原子技能进行额外的数据收集和微调，这使得该方法比传统的端到端方法高效得多。此外，随着原子技能库的动态扩展，其能够处理的任务范围也相应扩大。

4 实验

我们将我们的框架与各种表现优异的视觉语言动作（VLA）模型相结合，通过实验与传统端到端方法进行对比，旨在回答以下问题：
• 在相同的物理环境下收集轨迹数据时，我们的方法是否能在较少数据的情况下实现与端到端方法相当的性能？
• 在收集相同数量的数据时，我们的方法是否能够比端到端方法实现更好的性能？
• 在处理新任务时，我们的方法是否仍然能在少量或无需额外数据的情况下有效工作？
• 我们的方法是否适用于不同的VLA主干模型，同时保持有效性和效率？

4.1 实验设置

基线方法。我们的方法可以集成到不同的端到端VLA模型中。我们使用RDT-1B和Octo模型作为基线，并在ALOHA双臂机器人上进行实验。根据先前的研究和我们的测试，其他广泛使用的VLA模型（如OpenVLA）难以适应双臂Mobile ALOHA的硬件设置，因此我们将这些模型排除在实验之外。
任务选择。我们选择了四个具有挑战性的任务，从不同维度评估我们方法的性能，包括模型在现实任务中可能遇到的复杂场景（如物体的不同位置和复杂操作）。前三个任务专门用于验证我们方法的数据效率和性能，而第四个任务则用于评估其对新任务的适应性。详细的任务定义和可视化如图3所示。

数据收集。我们收集了轨迹数据样本以微调VLA主干模型。每个任务的演示数量如下：
• 倒水：3种不同的瓶子位置和3种不同的杯子位置，每种设置3次演示，端到端微调共27次演示，技能型VLA微调分别为9次和9次演示。
• 拾取并放置香蕉：4种不同的香蕉位置和2种不同的盘子位置，每种设置3次演示，端到端VLA微调共24次演示，技能型VLA微调分别为9次和6次演示。
• 拾取并放置笔：3种不同的笔位置和3种不同的杯子位置，每种设置3次演示，端到端VLA微调共27次演示，技能型VLA微调分别为9次和9次演示。
• 按顺序移动积木：端到端VLA微调中按红-绿-蓝顺序的10次演示，技能型VLA微调中分别移动红、绿、蓝积木的10次演示。
评估指标。对于特定任务，我们通过比较不同设置下的任务成功率来评估性能。成功率等于成功试验的次数除以总试验次数。为确保公平性，我们对每种方法在四个任务中各进行了10次试验。以下以拾取香蕉并将其放置到盘子上的任务为例进行说明：首先，香蕉和盘子均放置在训练集中的位置进行10次试验；接着，香蕉放置在训练集外的位置，而盘子仍位于训练集内进行10次试验；然后，香蕉位于训练集内，而盘子位于训练集外进行10次试验；最后，香蕉和盘子均放置在训练集外的位置进行10次试验。

4.2 结果分析

我们识别了四项复杂任务，并在Octo和RDT1B模型上使用我们的方法进行了对比实验。结果如表1和表2所示。需要注意的是，“End-to-end”表示传统的端到端方法，“Ours”表示保持与端到端数据收集相同的数据点分布但数据量更小，而“Ours-plus”表示保持与端到端数据收集相同的数据量，从而获得更大的数据点分布。

针对之前提出的三个问题，实验结果如下。
Q1：从表1可以看出，我们的方法与Octo或RDT-1B结合后，表现与相应的端到端方法相当。我们方法的成功率均不低于端到端方法。例如，在拿起瓶子倒水的任务中，当瓶子和杯子的位置均位于训练集之外时，我们方法的成功率提升了20%。这表明，在相同数据分布下，我们的方法需要更少的数据即可达到相当甚至更好的性能，有效缓解了“数据爆炸”问题。
Q2：同样，表1显示，在相同数量的示范数据上进行微调后，无论是结合Octo还是RDT-1B视觉语言模型（VLA），我们方法的成功率均显著提升。例如，在将香蕉放置在盘子上的任务中，当香蕉和盘子的位置均位于训练集之外时，我们方法的成功率提高了40%。这一改进源于在保持数据量不变的情况下，从更多样化的位置收集数据，从而增强了模型的泛化能力。
Q3：表2展示了我们方法与端到端方法在新任务上的性能对比。可以发现，端到端方法仅局限于已知任务，完全无法处理新任务，而我们的方法则能够有效地执行不同新任务中所需的原子技能，从而成功完成任务。
Q4：表1表明，无论是结合Octo还是RDT-1B，我们方法在数据效率和操作性能上均优于相应的端到端方法。表2则显示，无论采用何种骨干VLA模型，我们的方法都能更好地适应新任务。这些结果表明，我们的方法可以有效地应用于各种VLA模型，在提升数据效率、操作性能以及新任务适应性方面表现优异。

5 结论

在本工作中，我们提出了一种数据驱动的原子技能库构建框架，称为“三轮自驱动原子技能库构建方法”，以解决传统端到端具身操作策略引发的“数据爆炸”问题。总体而言，我们的方法以数据驱动的方式自动定义和更新一组原子技能，并通过数据收集和VLA微调实现这些技能。在真实场景中的大量实验表明，我们的方法在数据效率和泛化能力方面具有显著优势。我们希望这项工作能够启发未来研究，为“数据爆炸”问题提供重要的解决方案。

posted @ 2025-03-16 16:00 一介布衣、阅读(130) 评论(0) 收藏举报

刷新页面返回顶部

一介布衣、