SynGrasp-1B:全球首个十亿帧机器人抓取数据集,助力零样本泛化和少样本适应.
2025-05-06, 由Galbot、北京大学、香港大学和北京人工智能研究院联合创建的SynGrasp-1B数据集,是全球首个十亿帧的机器人抓取数据集,其意义在于为机器人抓取任务提供了一个大规模的合成动作数据集,使得机器人能够在零样本和少样本的情况下,实现对新任务的快速适应和泛化。
一、研究背景
随着自然语言处理和计算机视觉领域基础模型的兴起,这些模型通过在大量互联网数据上进行预训练,展现出了在未见场景中的零样本泛化能力以及通过少量样本适应人类偏好的能力。受此启发,Vision-Language-Action(VLA)模型应运而生,它们能够处理机器人视觉观察和人类指令,直接生成机器人动作。然而,与视觉和语言模态不同,动作数据在现有的互联网数据集中是缺失的,这使得数据收集成为了一个新的挑战。
目前遇到困难和挑战?
1、数据收集成本高昂:现有的VLA模型主要依赖于真实世界的数据收集,这不仅需要大量的机器人和人类操作员,还需要多样化的物理设置,成本极高。
2、合成数据潜力未被充分挖掘:尽管合成数据提供了一种更经济的替代方案,但其在训练VLA模型方面的潜力尚未被充分探索。
3、模型泛化能力有限:现有的VLA模型在泛化到新任务和新环境方面存在困难,尤其是在面对未见过的物体和场景时。
数据集地址:SynGrasp-1B|机器人抓取数据集|计算机视觉数据集
二、让我们一起来看一下SynGrasp-1B
SynGrasp-1B是一个包含十亿帧的机器人抓取数据集,通过先进的光线追踪渲染和物理模拟生成,涵盖了广泛的领域随机化和丰富的几何与视觉变化。
SynGrasp-1B数据集包含了来自240个类别的10,000个独特物体,这些物体被随机放置在桌子上,生成了多样化且物理上合理的场景。通过CuRobo系统,为每个物体实例生成了稳定的对称抓取点,并使用运动规划算法规划了无碰撞的抓取轨迹。所有候选轨迹都在MuJoCo物理模拟器中进行了验证,以确保能够成功抓取物体。此外,使用Isaac Sim进行了高质量的RGB图像渲染,这些图像具有随机化的光照、背景和相机设置。
SynGrasp-1B数据集如何构建?
数据生成流程
数据生成流程:
首先从 Objaverse [63] 中精心挑选了超过 10,680 个适合桌面抓取的对象网格,并将这些对象随机放置在桌子上(左)。
接下来,我们使用 CuRobo 规划具有随机抓取姿态和指令的抓取轨迹(中)。
最后,我们对材料(桌子和人造机器人)、照明、摄像机视角和背景应用领域随机化,以模拟和渲染轨迹(右)
总结:
1、物体资产和布局生成:从Objaverse数据集中筛选出适合桌面抓取的物体,并随机缩放和放置这些物体。
2、抓取合成和轨迹生成:为每个物体实例生成稳定的对称抓取点,并使用CuRobo规划无碰撞的抓取轨迹。
3、视觉随机化和渲染:使用Isaac Sim进行高质量的光线追踪渲染,随机化光照、背景和相机设置。
SynGrasp-1B数据集有哪些特点?
1、大规模:包含十亿帧的抓取数据,是全球首个如此大规模的数据集。
2、多样化:涵盖了广泛的几何和视觉变化,确保了模型的泛化能力。
3、高质量:使用先进的光线追踪渲染技术,确保了图像的逼真度。
如何使用SynGrasp-1B数据集?
此数据集可以用于训练机器人抓取模型,特别是在零样本和少样本的情况下,帮助模型快速适应新任务和新环境。此外,该数据集还可以用于研究机器人抓取的泛化能力和适应性。
基准测试的结果?
在真实世界和模拟环境的基准测试中,GraspVLA模型在零样本情况下展现了超过90%的抓取成功率,证明了其强大的泛化能力。
GraspVLA 是一个专门在亿规模合成动作数据上预训练的抓取基础模型,并与互联网语义数据进行联合训练。它在多个方面表现出直接的仿真到现实的迁移,以及强大的零样本泛化能力,以及对特定场景和人类偏好的少量样本适应性。
GraspVLA模型的工作流程和架构
GraspVLA是一个结合了自回归视觉语言模型和基于流匹配的动作专家的系统。
它利用互联网语义数据和合成动作数据之间的协同作用,通过渐进式动作生成机制来实现。
1、输入数据:
Web Data(互联网数据):例如,包含指令“pick up charger”(拿起充电器)的图像。
Synthetic Data(合成数据):例如,包含指令“pick up box”(拿起盒子)的图像。
2、Vision-Language Model(视觉语言模型):
该模型负责预测目标对象的2D边界框(Bounding Boxes)、抓取姿势(Grasping Pose)和动作块(Action Chunk)。
对于互联网数据,模型预测2D边界框。
对于合成数据,模型除了预测2D边界框外,还预测抓取姿势和动作块。
3、Progressive Action Generation(渐进式动作生成):
这是一个三步过程:
Bounding Boxes(边界框):模型首先预测目标对象的2D边界框。
Grasping Pose(抓取姿势):对于合成数据,模型进一步预测机器人的抓取姿势。
Action Chunk(动作块):最后,模型生成动作块,这些动作块是基于流匹配的动作专家(Action Expert)生成的。
4、Action Expert(动作专家):
负责生成基于流匹配的精细动作。这些动作是基于视觉语言模型的输出和流匹配向量场(Flow Matching Vector Field)来生成的。
5、输出:
对于互联网数据,输出是2D边界框。
对于合成数据,输出包括2D边界框、抓取姿势和动作块。
工作流程:
模型首先处理互联网数据和合成数据,预测目标对象的2D边界框。
对于合成数据,模型接着预测抓取姿势,这是动作生成的中间步骤。
最后,模型生成动作块,这些动作块是连续的动作序列,用于指导机器人完成抓取任务。
(a)展示了我们的真实世界设置,(b、c)展示了实验中使用的物体,(d)展示了对应基本、光照、背景、干扰物和高度设置的 5 个测试集。
与 LIBERO 中基线的比较。
与 AnyGrasp 的比较。GraspVLA 在语言引导和任意抓取任务中表现一致良好。相比之下,AnyGrasp 速度更快,在抓取常见物体方面表现出色,但在透明物体抓取方面存在困难。
性能随着训练帧数的增加而提升,尤其是在网页类别中。
训练后真实世界应用。我们尝试了三种不同的训练后任务,以展示我们的模型可以快速学习抓取新物品(a),新的抓取模式(b),以及新的抓取行为(c)。
高效的训练后。GraspVLA 在适应新任务方面表现出卓越的适应性,超越了未进行预训练的模型和所有基线。
我们对模型进行了详细的消融研究。在启用所有设计选择的情况下,性能显著提升。
三、展望SynGrasp-1B数据集应用场景
1、真实世界抓取任务:比如在工厂里,机器人可以利用这个数据集训练出来的模型,快速学会抓取各种各样的零件,不管是常见的螺丝钉,还是之前没接触过的新型号,都能轻松搞定,大大提高了生产效率。
2、模拟环境中的机器人训练:在虚拟的模拟环境中,研究人员可以用这个数据集来测试和优化机器人的抓取算法,看看机器人在不同的光照条件、背景环境和物体摆放情况下,抓取的成功率有多高,然后根据测试结果调整算法,让机器人在真实世界里表现得更好。
3、少样本适应性研究:想象一下,你给机器人展示几个抓取某个新奇物体的例子,它就能很快学会怎么抓取这个物体,这就是少样本适应性。这个数据集可以帮助研究怎么让机器人在只有少量示例的情况下,快速掌握新的抓取任务,比如在实验室里,研究人员可能只有有限的样本数据,但依然能让机器人学会抓取一些特殊的实验材料。
4、人机协作场景:在人机协作的工作环境中,机器人可以根据人类的指令,准确地抓取指定的物体。比如在仓库里,工人告诉机器人“把那个蓝色的箱子搬过来”,机器人就能通过这个数据集训练出的模型,理解指令并完成任务,提高人机协作的效率和准确性。
5、复杂环境下的抓取挑战:在一些复杂环境中,比如桌子上堆满了各种杂物,机器人需要在不碰到其他物体的情况下,精准地抓取目标物体。这个数据集可以帮助机器人学会在这样复杂的场景中,如何规划抓取路径,避免碰撞,成功完成抓取任务。
浙公网安备 33010602011771号