目录
1 背景 3
2 VLM模型与YOLO模型的区别 3
3 基于VLM的模型改进 3
3.1 ALOHA平台 4
3.2 VLM模型改进 5
3.3 数据集 6
3.3.1 DexYCB数据集 7
3.3.2 Sim-Grasp数据集 7
3.3.3 YCB-Video数据集 7
4 未来科学研究方向 7
4.1 多模态感知与理解能力 7
4.2 零样本与小样本学习能力 8
4.3 人机协作域自然交互 8
5 总结 8
参考文献 9

1 背景
随着人工智能技术的飞速发展，机器人技术也迎来了革命性的进步。如今，机器人已广泛应用于手工制造、医疗健康、物流仓储、家庭服务等多个领域，为人类社会提供了前所未有的便利和效率。作为机器人的核心组成部分，机器手臂也承担着至关重要的部分，发展机器手臂的目的是为了能够模拟人类手臂的灵巧性和适应性，生成一系列的动作，例如，实现机器人像人手一样抓取、搬运、装配、甚至精细操作目标物体。过去的机器人控制系统中，机器手臂的运作往往依赖yu1预编译指令和传感器，但在面对动态环境或位置环境时，其适应性明显不足。但如今VLM模型的兴起为机器人技术带来了新的可能性，VLM模型能够同时处理视觉信息和自然语言指令，从而实现更智能、更直观的人机交互。
VLM模型是视觉-语言模型(Vision-Language Model)，它是一种融合视觉和语言理解能力的人工智能模型，能够同时处理两种模态的信息，并建立两者之间的语义关联。VLM模型还可以完成零样本能力，无需额外训练即可处理新任务，有着很强的泛化性，在机器手臂中可以抓取未见过的物体。VLM模型的输入可以是文本或者图片，输入的图片通过视觉编码器提取图像特征，输入的文本通过文本编码器提取文本特征，将提取的图像、文本特征关联起来进行输出，使用VLM模型可以实现视觉问答、内容创作、自动驾驶等。视觉编码器可以通过CNN来完成，如ResNet网络模型，文本编码器可以通过Transformer来完成，通过编码器、解码器提取文本特征。
2 VLM模型与YOLO模型的区别
VLM和YOLO作为计算机视觉领域的两类重要模型，虽然在底层都涉及视觉信息处理，但它们在很多方面上有差别。VLM的核心目标是跨模态理解与生成，关联了视觉和语言信息，它的输入可以是图像+文本的任意组合，可以理解复杂语义，带有少量的动作序列，并且VLM模型可通过语言指令适应新任务，有一定的泛化能力，能够用于机器人控制中。而YOLO模型的核心目标是实时目标检测，快速定位和分类图像中的物体，它的输入只能是图像，输出物体边界框和类别标签，不能理解复杂语义，仅识别物体类别和位置，并且不能够适应新任务，需要训练数据覆盖目标类别，不太适合用于机器人控制中，但可以用于自动驾驶技术中，可以对物体做到快速识别判断。VLM模型的结构结合了CNN和Transformer[10]多种网络模型结构提取输入特征，而YOLO模型仅使用CNN来提取图像特征。
3 基于VLM的模型改进
对VLM模型的改进主要增加了流匹配，用于生成一系列的动作。机器臂抓工作会包括一些复杂任务，如整理桌面，叠衣服等，使用VLM可以有效解决这些问题，况且VLM还有一定的泛化能力，可以对未知的任务完成操作，这正解决了机器臂的学习能力，对未知环境做出判断，本章主要分析VLM在机器臂上运用，先通过对网络模型的分析，科学判断实际效果，接着VLM的机器臂的学习能力并不是空口而谈的，针对这一问题展开分析，学习能力为何而来。
3.1 ALOHA平台
斯坦福大学提出了一种机器手臂的仿真平台，主要任务是对操作台上的物体进行一系列任务，包括整理餐桌物品，安装齿轮，叠衣服、系鞋带和为另一台机器手臂安装夹子。机器操作主要通过模仿学习，这些复杂的操作需要很多步骤去完成，并且需要高精度，这个模型是基于Transformer架构，使用ResNet50作为提取图片特征，然后通过Transformer编码器-解码器融合视觉与本体感知信息，通过扩散（diffusion）模型生成动作序列[2]。

图3-1 ALOHA网络模型图
ALOHA平台中通过4个RGB摄像头分别从不同的视角输入工作台上物体图片，如上图，输入RGB摄像头捕捉到系鞋带的多视角图片，每个图像都通过独立的ResNet50主干网络提取特征，此外通过MLP（多层感知机）将原始本体感知数据，如机器人关节位置、夹爪状态等，投影到高维语义空间，使其与ResNet50提取的输出特征维度对齐，再一同作为输入到Transformer编码器中。通过交叉注意力机制（X-Attn）在编码器中输出一个任务相关的全局上下文表征。在注意力机制中通过键（K）、值（V）和查询（Q）的输入来生成机器人的运动轨迹，查询输入的是MLP投影后的本体感知特征，键值对输入的是ResNet提取图片的特征。将编码器的输出结果作为输入到解码器中，这一步是生成机器臂的动作序列，通过扩散添加噪音，再加上解码器中去除噪音从而防止机器臂卡死，去噪过程中，每一步动作的生成都受视觉和本体感知的约束，如当编码器特征提示“齿轮安装需毫米级对准”，解码器会生成高精度的微调动作。在解码器中，查询输入的是带噪声的动作块，价值对输入的全局上下特征，也就是机器臂的运动轨迹，最终稿输出一个任务的完整操作动作序列。
3.2 VLM模型改进
一种全新的机器人模型叫Π0[1]，它是在基于VLM模型的改进而得来的。机器手臂的模型如今还面临着诸多挑战，如任何研究都必须在非常大的规模上进行，因为机器人学习需要大规模数据的支持，通常需要很多数据集，然而在大规模训练的全部好处往往不能再较小的规模上体现出来，没有泛化性。我们需要开发的模型架构，能够有效地利用各种数据源，同时能够表示与复杂物理场景交互所需的复杂而精细的行为。同时，也需要正确的训练方案，最近自然语言处理（NLP）和计算机视觉领域（CV）的许多大型模型的进展都严重依赖于精心策划训练前和训练后数据的策略。通过对VLM模型的改进，很有效的解决了上面的问题。首先，通过预训练可以学习到机器人的任务轨迹，对以后未知的任务可以根据自己判断来执行，有很高的泛化能力；其次将来自许多机器人的数据源整合到一个模型中，解决了数据源不同的问题；最后，模型使用预训练的VLM主干。专注于机器人基础模型的框架，不仅包括模型架构本身，还包括预训练配方，预训练和后训练阶段，以及一系列现实世界的实验。

图3-2 Π0结构图
模型的整体的结构包含预训练阶段，流匹配生成机器运动轨迹和动作阶段，通过预训练阶段使得机器学习高质量的后训练数据的能力。整个模型重点体现出简单任务0样本学习能力和微调后精细训练复杂的任务和高效执行未知物体的能力。这些都充分体现了Π0模型结构的强大之处，具体实现的细节在于预训练阶段和流匹配动作生成阶段，上图中，预训练是在VLM大模型的基础上进行的，对来自不同的机器数据源跨平台交叉整合到一个数据源上，其中包含单臂、双臂、多臂和移动机器人，接着通过预训练网络上常见的数据和OXE数据集，可以机器人学习到广泛的命令，可以对简单的任务直接做出操作。如叠衣服中，像ALOHA平台上那样，通过多图的输入，使用CNN提取图像的特征，最后输入到流匹配中，生成一些列的动作，叠衣是一个复杂的任务，机器不能不能通过0样本学习直接执行，需要通过预训练后微调执行的精细的操作。预训练阶段赋予模型广泛的知识基础，预训练阶段的目标是将模型暴露于各种各样的任务中，以便它能够获得广泛使用和普遍的物理能力，然后在训练后阶段使用更高质量的精选数据对其进行细化，以实现所需各种复杂多样的行为，而后训练阶段的目标是为模型提供熟悉和流畅地执行所需下游任务的能力。正因为如此，对预训练和后训练数据集的要求是不同的，预训练数据集应该涵盖尽可能多的任务，并且在每个任务中应该涵盖多种行为。训练后数据集应该涵盖有助于有效执行任务的行为，应该表现出一致和流畅的策略，直观上，多样化的预训练数据使模型能够从错误中恢复并处理高度变化的情况，而这些情况在高质量数据中可能不会发生，而后训练数据则教会模型很好地执行任务。
模型的流匹配阶段如同ALOHA的扩散阶段，根据CNN生成任务轨迹来完成输出动作块，实现机器移动操作任务的功能。这里的流匹配也受到了扩散的启发，扩散模型的思想是通过逐步添加噪声到数据中，然后通过去噪过程一步步生成样本，而流匹配也是像扩散模型那样添加噪声和逐步去噪来生成动作，但是流匹配模型去噪的数学模型与扩散模型不相同，它的核心思想是通过学习一个向量场，将初始噪声分布（如高斯分布）通过连续的变换映射到目标分布，也就是真实动作分布。具体来说，给定初始噪声样本，流匹配通过积分向量场逐步调整噪声，最终生成符合目标分布的动作块。流匹配和扩散模型在训练时均需要不同时间步的噪声水平，它们均属于生成模型，但流匹配通过向量场和显式路径简化了生成过程，更适合实时、高频任务；扩散模型则通过分阶段去噪在图像生成等领域表现优异。
3.3 数据集
从前文中可以看出，数据集对机器人训练生成轨迹以及执行动作至关重要，未来确保机器人具有一定的学习能力，往往需要大量的数据集，不仅在机器人领域，而且很多大模型都需要数据集的支持，如自然语言处理，计算机视觉，目标识别等模型。这部分主要介绍关于机器人数据集相关方面，其中包括2D，3D，6D目标物体数据集，2D物体是二维空间物体结构，指的是平面内的位置信息，在平面内抓取物体时，可能并不会那么精确，因为只能显式平面上的相关信息，物体轨迹只能在x，y坐标轴上移动。3D物体是三维空间物体结构，在二维的基础上加入z坐标轴，指物体在三维空间的位置信息，比二维显式的信息会更多些，三维数据集可以用于大部分机器。6D物体是三维空间中的位置于位姿，用于描述物体或机器人的完整空间状态，包含物体3D平移和3D旋转，它是目前研究的主流。在2D到6D数据上，物体的运动轨迹越来越清晰，而6D数据集中可以展现出完整的物体姿态。
3.3.1 DexYCB数据集
这个数据集主要用于2D物体与关键点检测，3D手部姿态估计和6D物体姿态估计，数据集的生成是来自10个受试者在真实场景下从8个视图中抓取20个不同的物体，8个RGB-D相机用来记录8个抓取的不同视图，受试者以自然的状态拿起一个物体，举到空中，其中有一些实验是把物体交给对面的人，完成这些任务在4秒钟内，并重复5次实验抓取目标物体，每次目标物体与其它物体随机放置[3]。数据集捕捉了真实的视频，真实的抓取姿势和动作，完整的抓取过程为，从手部靠近、张开手指、接触物体到稳定握住物体这一些列动作，最终以短片的形式完整捕捉下来。
3.3.2 Sim-Grasp数据集
这个数据集是一个大规模合成的6D数据集，其中实验主要是6自由度的机器手臂和两指抓取系统，数据集生成过程模拟了真实世界的情况，生成了高质量的标签，从而能够有效地应用应用于真实场景，它包含500个混乱场景钟1550个独特的对象，带有790万个注释标签，且包含三部分[4]，Sim-Grasp-Dataset是混乱环境的大型合成数据集；Sim-GraspNet是6自由度抓取网络，基于点云数据和标注好的抓取标签进行训练，并能输出端到端的抓取姿态；Sim-Grasp-Policies是多模态抓取策略，包含对象不可知抓取模式，以及文本提示和框提示抓取模式，将Sim-GraspNet的能力于基于视觉Transformer的技术相结合，为动态环境提供了灵活性的效率。
3.3.3 YCB-Video数据集
用于6D目标姿态估计的大规模视频数据集，主要用于混乱的场景，这个数据集提供了一种新的卷积神经网络PoseCNN用于端到端6D姿态估计，克服了无纹理条件下姿态估计[5]。数据集包含来自YCB数据集的21个物体的精确6D位置姿态信息，视频是通过RGB-D相机在快速裁剪模式下收集的。它有6D姿态标注，仅在每个视频的第一帧中手动指定物体的姿态，利用每个物体的符号距离场（SDF）表示，在第一个深度帧中对每个物体的姿态进行微调。通过固定物体彼此之间的相对姿态并跟踪深度视频中物体配置来初始化相机轨迹。最后，在全局优化步骤中对相机轨迹和相对物体姿态进行微调。
4 未来科学研究方向
VLM视觉语言模型通过融合多模态输入（视觉、语言、动作）为机器人灵巧擦欧总提供了新思路，也为机器人模型的发展开发了一个新方向。在以后的研究中，会更加注重与VLM模型的融合，从而使得机器人可以完成更灵巧的任务。
4.1 多模态感知与理解能力
现有的VLM主要依视觉和语言的输入，但触觉、力觉等模式未被充分利用，只是初期发展阶段，Π0是在视觉和语言的输出基础上融合了动作，实现了机器人的行为生成，但触觉、力觉等感知模块的融合需要传感器的加入，融合多模态传感数据，提升操作精度于鲁棒性。如CLIPort[6]展示了如何将CILP模型的视觉语义理解与空间推理能力结合，实现“where”和“what”路径的分离处理，显著提高了抓取和放置任务的性能。在RT-2[7]中，Goole DeeoMind团队开发了能够将网络规模视觉语言知识转化为机器人动作的模型，证明了大规模预训练对机器人操作任务的有效性。
4.2 零样本与小样本学习能力
如今机器人要想获得广泛得学习能力，往往需要大量数据集得支持，这不得不面对数据集匹配问题，还有输入维度格式等一些列问题，找数据集也会花费很多时间，这里得零样本在Π0也体现了一部分，但是必须得通过预选连才能获得这样得能力，未来可以开发能够在少量甚至没有任务特定示例情况下完成新任务得灵巧手臂系统。如Shafiullah et[9]等人通过持续学习模型，以完成适应新任务而不遗忘旧知识得能力。如在仿真环境中生成多样化数据MuJoCo，通过域适应技术迁移到真实机器人平台中，ALOHA的仿真实验。
4.3 人机协作域自然交互
主要通过人的命令和机器人的轨迹生成来完成任务，这在特定的环境中有着很大的用处，机器人可以到达人不能去的地方，也可以做些人不能完成的任务，通过人的命令来指示机器人来开发更自然、直观和全面的人机交互方式，使非专家用户也能有效指导机器人。然而，Π0只是实现了很小一部分，但面对现实环境中可能还有些不够充分，如TidyBot展示了如何利用LLMs理解个性化偏好并将其转化为具体的整理动作。如Dexterity from Touch[8]研究了如何用触觉反馈增强灵巧操作能力，特别是在视觉受限场景下的精细操作。
5 总结
本章主要从VLM视觉、语言模型出发，简单介绍了这个大模型，并以此为基础推出最近机器人的发展方向，结合VLM大模型生成一些列动作，其中，引入ALOHA机器人仿真环境展示了过去机器人手臂的真实应用，通过ResNet50网络来生成抓取轨迹，在通过Transformer编码器-解码器和扩散模型来生成手臂的动作块。接着，介绍了Π0最新的机器人模型结构，可以通过文本和图片来执行任务，但大模型需要的通过大规模数据集的预训练来获得学习能力，对简单任务直接0样本执行任务，但对复杂任务们需要在预训练后再经过微调来获得执行任务的能力，充分体现了Π0模型结构的泛化性和鲁棒性。然后介绍了相关的数据集，2D、3D和6D物体数据集对物体的抓取轨迹越来越清晰，最后对未来可行性研究方向进行分析。如今，机器人以越来越接近我们的生活，今年春晚，宇树机器人首次登上舞台，为我们展示了机器人的灵活性和全身协调性，未来机器人在社会也会占着越来越重的分量。
参考文献
[1]. Black, Kevin et al. “π0: A Vision-Language-Action Flow Model for General Robot Control.” ArXiv abs/2410.24164 (2024): n. pag.
[2]. Zhao, Tony Z. et al. “ALOHA Unleashed: A Simple Recipe for Robot Dexterity.” Conference on Robot Learning (2024).
[3]. Chao, Yu-Wei et al. “DexYCB: A Benchmark for Capturing Hand Grasping of Objects.” 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 9040-9049.
[4]. Li, Juncheng and David J. Cappelleri. “Sim-Grasp: Learning 6-DOF Grasp Policies for Cluttered Environments Using a Synthetic Benchmark.” IEEE Robotics and Automation Letters 9 (2024): 7645-7652.
[5]. Xiang, Yu et al. “PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes.” ArXiv abs/1711.00199 (2017): n. pag.
[6]. Shridhar, Mohit et al. “CLIPort: What and Where Pathways for Robotic Manipulation.” ArXiv abs/2109.12098 (2021): n. pag.
[7]. Brohan, Anthony et al. “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.” ArXiv abs/2307.15818 (2023): n. pag.
[8]. Güzey, Irmak et al. “Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations with Robotic Play.” ArXiv abs/2303.12076 (2023): n. pag.
[9]. Shafiullah, Nur Muhammad (Mahi) et al. “Behavior Transformers: Cloning k modes with one stone.” ArXiv abs/2206.11251 (2022): n. pag.
[10]. Li, Yehao et al. “Contextual Transformer Networks for Visual Recognition.” IEEE Transactions on Pattern Analysis and Machine Intelligence PP (2021): 1-1.

posted on 2025-04-07 10:39 kangkang666888 阅读(272) 评论(0) 收藏举报

刷新页面返回顶部

公告

导航