【综述】VLA模型:概念、进展、应用与挑战
https://arxiv.org/abs/2505.04769
摘要
视觉-语言-动作(Vision-Language-Action, VLA)模型标志着人工智能领域的变革性进展,旨在将感知、自然语言理解与具身动作统一于单一计算框架之中。本文作为基础性综述,系统梳理了近年来VLA模型的最新进展,并围绕五大主题支柱对该快速发展的领域进行了结构化总结。首先,我们确立了VLA系统的概念基础,追溯其从跨模态学习架构到集成视觉-语言模型(VLM)、动作规划器和分层控制器的通用智能体的演变过程。本文采用严格的文献综述方法,涵盖了过去三年内发表的80余种VLA模型。主要进展包括架构创新、参数高效训练策略以及实时推理加速。我们深入探讨了VLA在多样化应用领域的落地,如人形机器人、自动驾驶、医疗与工业机器人、精准农业以及增强现实导航。文章还系统分析了VLA在实时控制、多模态动作表示、系统可扩展性、对未知任务的泛化能力以及伦理部署风险等方面面临的主要挑战。结合最新技术进展,我们提出了针对性解决方案,包括智能体式AI自适应、跨具身泛化和统一的神经-符号规划。在前瞻性讨论中,本文展望了VLA模型、VLM和智能体式AI融合,推动社会对齐、适应性强、通用型具身智能体的发展。此综述为推动智能机器人与人工通用智能(AGI)的研究与应用提供了坚实的基础参考。
引言
在 Vision-Language-Action (VLA) 模型出现之前,机器人和人工智能领域的进展主要分布在三个独立方向:视觉系统能够“看见”和识别图像,语言系统能够理解和生成文本,动作系统则负责控制运动。这些系统各自表现良好,但在协同工作或应对新颖、不可预测场景时却力不从心,难以理解复杂环境或灵活应对现实挑战。
如图1 所示,传统计算机视觉模型(主要基于卷积神经网络 CNN)通常只适用于特定任务,如目标检测或分类,需要大量标注数据,并且在环境或目标稍有变化时就必须重新训练。这些视觉模型虽然能“看见”(例如识别果园中的苹果),但无法理解语言,也无法将视觉信息转化为有意义的动作。语言模型,尤其是大型语言模型(LLM),极大提升了文本理解和生成能力,但它们只能处理语言,无法感知或推理物理世界(如图1 中“果园里的成熟苹果”即体现了这一局限)。与此同时,机器人中的动作系统依赖大量手工设计的策略或强化学习,只能实现特定行为(如物体操作),但工程成本高,难以泛化到新任务。
尽管视觉-语言模型(VLM)通过融合视觉和语言取得了多模态理解上的突破,但仍然存在明显的集成瓶颈:无法根据多模态输入生成或执行连贯的动作。如图1 所示,大多数 AI 系统最多只能集成两种模态(视觉-语言、视觉-动作或语言-动作),难以将三者统一到一个端到端框架中。因此,机器人可以识别物体(“苹果”)、理解文本指令(“捡起苹果”),或执行预设动作(抓取),但要将这些能力整合为流畅、可适应的行为却难以实现。结果就是管道式架构碎片化,难以灵活适应新任务或环境,导致泛化能力差、工程负担重。这一瓶颈成为具身智能发展的关键障碍:如果系统不能同时感知、理解和行动,智能自主行为就难以实现。
为解决上述问题,VLA 模型应运而生。VLA 概念大约在 2021-2022 年提出,代表性工作如 Google DeepMind 的 Robotic Transformer 2 (RT-2),首次将感知、推理和控制统一到一个框架中。作为图1 所示问题的解决方案,VLA 模型集成了视觉输入、语言理解和运动控制,使具身智能体能够感知环境、理解复杂指令,并动态执行合适动作。早期 VLA 方法通过在视觉-语言模型基础上引入动作 token(数值或符号化的机器人运动指令),实现了从视觉、语言和轨迹数据联合学习。这一创新极大提升了机器人对未知物体的泛化能力、对新语言指令的理解能力,以及在非结构化环境下的多步推理能力。
VLA 模型是实现统一多模态智能的重要突破,打破了长期以来视觉、语言和动作各自为政的局限。通过利用互联网规模的数据集,将视觉、语言和行为信息融合,VLA 让机器人不仅能识别和描述环境,还能进行语境推理并在复杂动态场景下执行合适动作。图1 展示了从孤立的视觉、语言、动作系统到集成 VLA 模型的演变,这标志着具身智能体向自适应、可泛化方向迈出了关键一步。鉴于这一创新的深远影响,有必要开展系统性综述,全面梳理相关文献和技术进展。首先,综述有助于澄清 VLA 的基础概念和架构原理,区分其与前代模型的本质差异。其次,能够结构化地总结领域内的快速进展和关键里程碑,帮助研究者和工程师把握技术演化轨迹。第三,深入综述有助于梳理 VLA 在家庭机器人、工业自动化、辅助技术等实际应用中的变革性作用。进一步,通过批判性分析当前挑战(如数据效率、安全性、泛化和伦理问题),综述能够明确未来大规模部署所需解决的障碍。最后,综合这些洞见,有助于为 AI 和机器人领域的研究者提供前沿方向和实践参考,促进协作与创新。
在本综述中,我们系统性地分析了视觉-语言-动作(VLA)模型的基本原理、发展进展以及技术挑战。我们的目标是整合当前对VLA的理解,同时识别其局限性并提出未来发展方向。综述首先详细阐述了关键概念基础(见图2),包括VLA模型的定义、历史演变、多模态集成机制以及基于语言的标记化与编码策略。这些概念性组成部分为理解VLA在多模态下的结构与功能奠定了基础。
在此基础上,我们统一展示了近期的技术进展与高效训练策略(见图3)。内容涵盖了推动VLA模型更强泛化能力的架构创新,以及数据高效学习框架、参数高效建模技术和模型加速方法,这些都旨在降低计算成本而不牺牲性能。这些进展对于VLA系统在实际应用中的规模化部署至关重要。
随后,我们深入讨论了当前VLA系统面临的主要挑战(见图4),包括推理瓶颈、安全性问题、高计算需求、有限的泛化能力以及伦理影响。我们不仅指出了这些关键难题,还分析了可能的解决方案。
这三幅图共同构建了本文的视觉框架,支撑了文本分析。通过梳理概念基础、最新创新和开放挑战,本综述旨在为未来研究提供指导,推动更强健、高效且具伦理保障的VLA系统发展。
视觉-语言-动作模型的概念
VLA(视觉-语言-动作)模型代表了一类能够在动态环境中联合处理视觉输入、理解自然语言并生成可执行动作的新型智能系统。从技术角度看,VLA模型融合了视觉编码器(如CNN、ViT)、语言模型(如LLM、Transformer)以及策略模块或规划器,实现了任务驱动的控制。这些模型通常采用多模态融合技术——如交叉注意力、嵌入拼接或统一标记化——将感知信息与文本指令对齐。与传统的视觉-动作管道不同,VLA支持语义基础推理,实现上下文感知、可供性检测和时序规划。典型的VLA模型通过摄像头或传感器观察环境,解析语言表达的目标(如“捡起红色苹果”,见图5,并输出低层或高层的动作序列。近年来,VLA模型集成了模仿学习、强化学习或检索增强模块,以提升样本效率和泛化能力。本文综述了VLA模型从基础融合架构到可在机器人、导航和人机协作等实际场景中部署的通用智能体的演变过程。
VLA模型是一种多模态人工智能系统,将视觉感知、语言理解和物理动作生成统一到一个框架中。这类模型使机器人或AI智能体能够解释感知输入(如图像、文本),理解上下文语义,并通过端到端学习自主执行现实任务,而非依赖孤立的子系统。如图5所示,VLA模型打破了以往视觉识别、语言理解与运动执行之间的壁垒,极大拓展了机器人与AI系统的能力边界。
演化与时间线
VLA模型在2022-2025年间经历了三个显著的发展阶段:
-
基础集成阶段(2022–2023)
早期VLA模型通过多模态融合架构实现了基本的视觉-运动协调。例如,CLIPort首次将CLIP嵌入与运动原语结合,Gato展示了在604项任务上的通用能力,RT-1通过大规模模仿学习在操作任务中达到了97%的成功率,VIMA则引入了基于Transformer的时序推理。到2023年,ACT实现了视觉链式推理,Diffusion Policy通过扩散过程提升了动作预测的随机性。这些基础方法解决了低层控制问题,但在组合推理和可供性理解方面仍有不足,促使领域在语义对齐和场景理解上不断创新。 -
专用化与具身推理阶段(2024)
第二代VLA模型引入了领域特定的归纳偏置。例如,Deer-VLA通过检索增强训练提升了少样本适应能力,Uni-NaVid通过三维场景图优化了导航,ReVLA采用可逆架构实现了高效内存管理,Occllama利用物理感知注意力机制解决了部分可见性问题。同时,ShowUI通过对象中心化解耦提升了组合理解能力,OpenDriveVLA将多模态传感器融合应用于自动驾驶。这一阶段推动了新的基准测试方法的发展。 -
泛化与安全关键部署阶段(2025)
当前VLA系统重点关注鲁棒性与人类对齐。例如,SafeVLA集成了形式化验证以实现风险感知决策,Humanoid-VLA通过分层架构实现了全身控制,MoManipVLA优化了嵌入式部署的计算效率,Groot N1结合神经-符号推理实现了因果推断。新兴范式如Chain-of-Affordance的可供性链式推理和SpatialVLA的仿真到现实迁移解决了跨具身泛化难题,ShowUI则通过自然语言接口实现了人机协作与语义对齐。
图6 展示了 2022 至 2025 年间 47 种 VLA 模型的演化时间线。最早的 VLA 系统(如 CLIPort、Gato、RT-1 和 VIMA)通过结合预训练视觉-语言表征与任务驱动策略,为机器人操作和控制奠定了基础。随后,ACT、RT-2 和 VoxPoser 引入了视觉链式推理与可供性语义对齐。Diffusion Policy 和 Octo 等模型则带来了随机建模和大规模数据管道。2024 年,Deer-VLA、ReVLA 和 Uni-NaVid 等系统实现了领域专用化和高效内存设计,Occllama 与 ShowUI 则解决了部分可见性和用户交互问题。之后,Quar-VLA 和 RoboMamba 等模型聚焦于机器人领域。最新的创新强调泛化与实际部署:SafeVLA、Humanoid-VLA 和 MoManipVLA 集成了形式化验证、全身控制和记忆系统。Groot N1 与 SpatialVLA 等模型进一步推动了仿真到现实迁移和空间语义对齐。该时间线清晰展现了 VLA 模型从模块化学习到通用、安全、具身智能体的演进过程。
多模态集成:从孤立管道到统一智能体
VLA模型的核心进步在于其多模态集成能力,即在统一架构下联合处理视觉、语言和动作。传统机器人系统通常将感知、自然语言理解和控制作为独立模块,通过手工定义的接口或数据转换进行连接。例如,经典的管道式框架需要感知模型输出符号标签,规划器再将其映射为具体动作,往往依赖领域特定的人工工程。这类方法适应性差,难以应对模糊或新颖环境,也无法泛化到预设模板之外的指令。
现代VLA模型则通过大规模预训练编码器和基于Transformer的架构实现端到端模态融合。模型能够在同一计算空间内解释视觉观测和语言指令,实现灵活、语境感知的推理。例如,在“捡起红色成熟苹果”任务(见图5),视觉编码器(如ViT或ConvNeXt)对场景中的物体进行分割和分类,识别颜色与成熟度属性;语言模型(如T5、GPT或BERT变体)将指令编码为高维嵌入。这些表征通过交叉注意力或联合标记化机制融合,生成统一的潜在空间以指导动作策略。
CLIPort首次有效展示了这种多模态融合,利用CLIP嵌入实现语义对齐,并通过卷积解码器进行像素级操作,无需显式语言解析即可直接用自然语言调控视觉运动策略。VIMA进一步发展了这一方法,采用Transformer编码器联合处理以对象为中心的视觉token和指令token,实现了空间推理任务的少样本泛化。
最新进展还引入了时序和空间对齐机制。VoxPoser通过体素级推理解决三维对象选择的歧义,RT-2将视觉-语言token融合到统一Transformer中,支持对未见指令的零样本泛化。Octo则提出了记忆增强型Transformer,实现了跨多场景的长时决策,展示了联合感知-语言-动作学习的可扩展性。
更重要的是,VLA模型为真实世界的语义对齐难题提供了强健解决方案。例如,Occllama通过注意力机制处理遮挡对象引用,ShowUI则实现了自然语言接口,使非专业用户可通过语音或文本指令控制智能体。这些能力得益于深层次的模态融合,不仅限于表层集成,还实现了语义、空间和时序的跨模态对齐。
标记化与表征:VLA如何编码世界
VLA模型区别于传统视觉-语言架构的核心创新在于其基于token的表征框架,实现了对感知、语言和物理动作空间的整体推理。受Transformer等自回归生成模型启发,现代VLA通过离散token将所有模态——视觉、语言、状态和动作——统一到共享嵌入空间。这使得模型不仅能理解“做什么”(语义推理),还能学会“怎么做”(控制策略执行),实现完全可学习和可组合的智能体行为。
-
前缀 Token:编码环境与指令上下文
前缀 token 是 VLA 模型的语境基础。这些 token 将环境场景(如图像或视频)和自然语言指令编码为紧凑的嵌入,作为模型内部表征的“前缀”。
例如,如图7 所示,在“将绿色积木堆放到红色托盘上”的任务中,桌面图像通过 ViT 或 ConvNeXt 等视觉编码器处理,指令则由大型语言模型(如 T5 或 LLaMA)嵌入。二者被转换为一系列前缀 token,建立模型对目标和环境布局的初步理解。这种共享表征实现了跨模态语义对齐,使系统能够解析空间指代(如“在左边”“在蓝色杯子旁边”)和对象语义(如“绿色积木”)。 -
状态 Token:嵌入机器人自身配置
除了感知外部信息,VLA 还需实时感知自身物理状态。状态 token 用于编码机器人当前的配置,如关节位置、力-扭矩传感器读数、夹爪状态、末端执行器姿态,以及附近物体的位置。这些 token 对于操作和运动任务中的情境感知与安全至关重要。
如图8 所示,VLA 模型通过状态 token 实现动态、语境感知的决策。在图8a 中,机械臂靠近易碎物体,状态 token 编码实时本体信息(关节角度、夹爪姿态、末端距离),并与视觉和语言前缀 token融合,使 transformer 能推理物理约束,及时调整运动轨迹或力输出,避免碰撞。在移动机器人场景(图8b),状态 token 包含里程计、激光雷达、惯性传感器等空间特征,有助于地形感知和避障。transformer 将状态与环境和指令上下文融合,生成能动态适应环境变化的导航动作。无论是复杂环境下抓取,还是自主导航,状态 token 都为情境感知和精确控制提供了结构化机制,使模型能生成反映机器人内部配置和外部感知的动作序列。 -
动作 Token:自回归控制生成
VLA token 流的最后一层是动作 token,由模型自回归生成,代表每一步的运动控制信号。每个 token 对应底层控制指令,如关节角度更新、力/扭矩值、轮速或高层运动原语。推理时,模型在前缀和状态 token 的条件下逐步解码动作 token,将 VLA 转化为“语言驱动”的策略生成器。这种设计可无缝对接真实机器人执行系统,支持变长动作序列,并便于通过强化或模仿学习微调。典型如 RT-2 和 PaLM-E 等模型,将感知、指令和具身信息融合为统一 token 流。
例如,在苹果采摘任务(见图9),模型接收包含果园图像和文本指令的前缀 token,状态 token 描述机械臂姿态和夹爪状态,动作 token 则逐步预测,指导机械臂靠近苹果、调整夹爪方向并完成抓取。该方法的优势在于:transformer 不仅能生成文本序列,也能以类似方式生成物理动作序列——“句子”即为运动轨迹。
为了在机器人领域实现 VLA(视觉-语言-动作)范式,图9 展示了一个结构化流程,说明如何将多模态信息——视觉、语言和本体状态——编码、融合并转化为可执行的动作序列。该端到端闭环使机器人能够理解诸如“在绿色叶子旁边摘取成熟苹果”这样的复杂任务,并执行精确、语境敏感的操作。系统首先进行多模态输入采集,收集三类数据流:视觉观测(如 RGB-D 图像)、自然语言指令,以及实时机器人状态信息(如关节角度或速度)。这些数据分别通过预训练模块离散化为嵌入向量。正如流程图所示,图像通过 Vision Transformer (ViT) 主干网络处理,生成视觉 token;指令由 BERT 或 T5 等语言模型解析,生成语言 token;状态输入则通过轻量级 MLP 编码器转化为状态 token。
随后,这些 token 通过跨模态注意力机制融合,模型能够联合推理物体语义、空间布局和物理约束。融合后的表征为决策提供语境基础,在图9 中即为多模态融合步骤。融合嵌入被送入自回归解码器(通常为 transformer),生成一系列动作 token。这些 token 可对应关节位移、夹爪力控制或高层运动原语(如“移动到抓取位姿”、“旋转手腕”)。动作 token 随后被转化为控制指令并传递到执行环,闭合感知-动作循环,并反馈机器人的最新状态,指导下一步推理。该闭环机制使模型能够实时适应扰动、物体移动或遮挡。
具体实现细节见算法1,其形式化了 VLA 的 token 化流程。给定 RGB-D 图像 \(I\)、自然语言指令 \(T\) 和关节角度向量 \(\theta\),算法输出可顺序执行的动作 token。图像 \(I\) 经 ViT 处理得到 \(V\)(400 个视觉 token),指令 \(T\) 经 BERT 编码得到 \(L\)(12 个语言 token),机器人状态 \(\theta\) 经 MLP 得到 64 维状态嵌入 \(S\)。这些 token 通过跨注意力模块融合为 512 维共享表征 \(F\),捕捉语义、意图和情境感知。最后,策略解码器(如 FAST)将融合特征映射为 50 个离散动作 token,最终解码为电机控制命令 \(\tau_{1:N}\)。
解码过程采用 transformer 架构实现,见“动作预测代码”片段。初始化一个 12 层、512 维、8 头注意力的 Transformer,将融合 token 输入解码器,自回归地预测下一个最可能的动作 token,条件为先前 token 和上下文。最终的电机命令序列通过 detokenize 得到。该实现方式类似于大语言模型中的文本生成,但此处“句子”即为运动轨迹——将自然语言生成技术创新性地用于物理动作合成。
综上,图9、算法1和伪代码共同展示了 VLA 如何在统一且可解释的 token 空间内融合感知、指令与具身信息。该模块化框架支持任务和机器人形态的泛化,便于快速部署于实际场景,如苹果采摘、家庭任务和移动导航。更重要的是,token 化步骤的清晰分离使架构具备可扩展性,为后续 token 学习、分层规划或符号化推理等研究提供了基础。
学习范式:数据来源与训练策略
训练 VLA(视觉-语言-动作)模型需要融合多种学习范式,将来自互联网的语义知识与机器人领域的任务数据相结合。如前文所述,VLA 的多模态架构必须接触多样化的数据,以支持语言理解、视觉识别和运动控制。主要数据来源分为两类:
第一阶段:语义预训练
如图10 所示,大规模互联网语料库为模型提供语义先验。这些数据集包括图像-文本对(如 COCO、LAION-400M)、指令跟随数据(如 HowTo100M、WebVid)以及视觉问答数据集(如 VQA、GQA)。这些数据用于预训练视觉和语言编码器,使模型获得关于物体、动作和概念的通用表征。预训练阶段通常采用对比学习(如 CLIP)、掩码建模或语言建模损失,将视觉与语言模态对齐到共享嵌入空间。这一阶段为 VLA 奠定了“世界理解”基础,提升了组合泛化、对象语义对齐和零样本迁移能力。
第二阶段:具身任务学习
仅有语义理解还不足以完成物理任务。因此,第二阶段聚焦于模型的具身经验。机器人轨迹数据集(来自真实机器人或高保真模拟器)用于教会模型如何将语言和感知转化为动作。这类数据包括 RoboNet、BridgeData、RT-X 等,涵盖视频-动作对、关节轨迹和基于自然语言指令的环境交互。演示数据可通过示教、远程操作或脚本策略采集。此阶段通常采用监督学习(如行为克隆)、强化学习(RL)或模仿学习,训练自回归策略解码器根据融合的视觉-语言-状态嵌入预测动作 token。
近期研究越来越多地采用多阶段或多任务训练策略。例如,模型通常先在视觉-语言数据集上进行掩码语言建模预训练,然后在机器人演示数据上用 token 级自回归损失进行微调。还有一些方法采用课程学习(curriculum learning),即先训练简单任务(如物体推动),再训练复杂任务(如多步操作)。部分方法进一步利用领域自适应(如 OpenVLA)或仿真到现实迁移(sim-to-real transfer),以弥合合成数据与真实世界分布之间的差距。通过将语义先验与任务执行数据统一,这些学习范式使 VLA 模型能够跨任务、跨领域和跨具身泛化,成为可扩展、可指令化智能体的核心基础,具备强大的现实世界操作能力。
通过联合微调(co-fine-tuning),模型能够将不同数据集对齐,学习从视觉和语言输入到合适动作序列的映射。这种训练范式不仅帮助模型理解物体可供性(如苹果可以被抓取)和动作结果(如举起需要施加力和规划轨迹),还促进了对新场景的泛化。例如,一个在厨房操作任务上训练过的模型,如果掌握了物体定位、抓取和语言指令的通用原理,也能推断如何在户外果园采摘苹果。
最新架构如 Google DeepMind 的 RT-2(Robotic Transformer 2)很好地展示了这一原理。RT-2 将动作生成视为文本生成的过程,每个动作 token 对应机器人控制空间中的一个离散指令。由于模型同时在互联网规模的多模态数据和数千条机器人演示上训练,它能够灵活地解释新指令,并对新物体和任务实现零样本泛化——这是传统控制系统甚至早期多模态模型难以实现的能力。
自适应控制与实时执行
VLA 模型的另一大优势在于其自适应控制能力,能够利用来自传感器的实时反馈动态调整行为。这对于果园、家庭或医院等动态、非结构化环境尤为重要,因为突发变化(如风吹动苹果、光照变化或人员出现)会改变任务参数。在执行过程中,状态 token 会实时更新,反映传感器输入和关节反馈。模型据此动态修正计划动作。例如,在苹果采摘场景中,如果目标苹果发生轻微移动或有其他苹果进入视野,模型会重新解释场景并调整抓取轨迹。这种能力模拟了人类的适应性,是 VLA 系统优于传统流水线式机器人架构的核心优势。
视觉-语言-动作模型的进展
VLA模型的诞生源于Transformer架构的大型语言模型(LLM)的突破,尤其是ChatGPT在2022年11月发布后展现出的卓越语义推理能力(ChatGPT)。这一进展激发了研究者将语言模型扩展到多模态领域,将感知与动作集成到机器人系统中。到2023年,GPT-4引入了多模态能力,能够同时处理文本和图像,进一步推动了将物理动作纳入模型的研究(GPT-4)。与此同时,CLIP(2022)和Flamingo(2022)等视觉-语言模型(VLM)通过对比学习实现了强大的视觉-文本对齐,支持零样本物体识别,为VLA模型奠定了基础(CLIP)。这些模型利用大规模互联网数据集,将图像与文本描述对齐,为后续动作集成提供了关键先验。
VLA模型发展的关键一步是大规模机器人数据集的构建,例如RT-1收集了13万条机器人演示数据,为视觉、语言与动作的联合训练提供了基础。这些数据涵盖多样化任务和环境,使模型能够学习具备泛化能力的行为。架构创新方面,谷歌于2023年推出的RT-2模型成为里程碑,首次将视觉、语言和动作token统一到一个框架中,将机器人控制任务转化为自回归序列预测(RT-2 Blog)。RT-2采用离散余弦变换(DCT)压缩和字节对编码(BPE)对动作进行离散化,在处理新物体时性能提升了63%。多模态融合技术如交叉注意力Transformer,将Vision Transformer(ViT)处理的图像(如400个patch token)与语言嵌入融合,使机器人能够执行复杂指令,如“将红色杯子拿到碗的左边”。此外,加州大学伯克利分校于2023年发布的Octo模型,采用9300万参数的开源架构和扩散解码器,在OpenX-Embodiment数据集上训练了80万条机器人演示,进一步丰富了VLA研究生态。
VLA模型的架构创新
2023至2024年间,VLA模型在架构和训练方法上取得了显著进步。双系统架构成为关键创新之一,典型如NVIDIA的Groot N1(2025),将System 1(低延迟10ms的扩散策略用于底层控制)与System 2(基于LLM的大模型用于高层任务分解)结合,实现了战略规划与实时执行的高效协同,提升了动态环境下的适应性。斯坦福的OpenVLA(2024)则推出了7B参数的开源VLA,基于97万条真实机器人演示数据训练,采用双视觉编码器(DINOv2和SigLIP)和Llama 2语言模型,性能超越了更大规模的RT-2-X(55B)。训练范式也在演进,广泛采用互联网规模的视觉-语言数据(如LAION-5B)与机器人轨迹数据(如RT-X)联合微调,实现语义知识与物理约束的对齐。合成数据生成工具如UniSim通过构建遮挡等复杂场景,缓解了数据稀缺问题,提升了模型鲁棒性。参数高效方面,Low-Rank Adaptation(LoRA)适配器支持无需全量重训练的领域适应,GPU计算量降低70%。扩散式策略(如Physical Intelligence的pi 0模型,2024)提升了动作多样性,但计算资源消耗较大。这些创新推动了VLA技术的普及与协作,加速了领域发展。
近期VLA模型在架构上主要聚焦于三大范式:早期融合模型、双系统架构和自纠错框架。每种创新都针对实际机器人系统中的语义对齐、泛化能力和动作可靠性等关键挑战,提供了高效、模块化和鲁棒性的解决方案。
1. 早期融合模型(Early Fusion Models):
该类方法强调在输入阶段融合视觉和语言表征,然后再传递给策略模块。Huang 等人在 ICLR 2025 提出的 EF-VLA 模型即为代表,通过保留 CLIP 预训练时建立的语义一致性。EF-VLA 接收图像-文本对,利用 CLIP 的冻结编码器进行编码,并在 Transformer 主干网络的早期融合这些嵌入——在动作预测之前。该设计确保了预训练语义的一致性,减少了过拟合并提升了泛化能力。EF-VLA 在组合型操作任务上性能提升 20%,在未见目标描述上达到 85% 成功率。通过避免视觉-语言模块的微调,该方法还保持了计算效率,防止了领域特定训练中的灾难性遗忘。
2. 双系统架构(Dual-System Architectures):
受人类认知双过程理论启发,NVIDIA 的 Groot N1(2025)等模型实现了两个互补子系统:快速反应模块(System 1)和慢速推理规划器(System 2)。System 1 采用基于扩散的控制策略,延迟仅 10 毫秒,适用于精细、低层次控制,如末端执行器稳定或自适应抓取。System 2 则利用大型语言模型(LLM)进行任务规划、技能组合和高层次序列决策。规划器将长时目标(如“清理桌面”)解析为原子子任务,低层控制器则保证实时执行。这种分层设计实现了多时间尺度推理和更强安全性,尤其适用于需要快速反应与深度思考并存的场景。在多阶段家庭操作基准测试中,Groot N1 成功率比单一模型提升 17%,碰撞失败率降低 28%。
3. 自纠错框架(Self-Correcting Frameworks):
第三类架构创新是自纠错 VLA 模型,旨在无需外部监督即可检测并恢复失败状态。SC-VLA(2024)提出了混合执行环路,包含快速推理路径和慢速纠错路径。默认行为是通过轻量级 Transformer 直接从融合嵌入预测姿态或动作。当检测到失败(如抓取失败或碰撞)时,模型会调用次级流程,进行链式思维推理。该路径会查询内部 LLM(或外部专家系统),诊断失败原因并生成纠正策略。例如,机器人多次误识别被遮挡物体时,LLM 可能建议主动改变视角或调整夹爪方向。在闭环实验中,SC-VLA 任务失败率降低 35%,在复杂和对抗环境下显著提升了恢复能力。
VLA模型在架构设计和功能侧重点上表现出高度多样性,可以沿着端到端与模块化管道、分层与扁平策略结构,以及低层控制与高层规划的平衡等维度进行系统归类(见表1)。端到端VLA(如 CLIPort、RT-1、OpenVLA)通过单一统一网络将原始感知输入直接转化为运动指令。而组件化模型(如 VLATest、Chain-of-Affordance)则将感知、语言对齐和动作模块解耦,便于对各子模块进行针对性优化。
表1 VLA模型分类法,展示了基于架构范式和科学优先级的结构化归类。我们按照是否支持端到端执行、分层规划-控制解耦、或组件化模块化进行区分,并进一步按低层运动策略与高层任务规划器的侧重点进行细分。该分类揭示了设计模式——从完全统一的智能体(如RT-2、OpenVLA)到专用双系统框架(如CogACT、Groot N1),并强调了融合实时控制与战略推理的新兴混合方法。
Model Name | Year | End-to-End | Hierarchical | Component Focused | Low-Level Policy | High-Level Planner |
---|---|---|---|---|---|---|
CLIPort | 2022 | ✓ | ✗ | ✗ | ✓ | ✗ |
RT-1 | 2022 | ✓ | ✗ | ✗ | ✓ | ✗ |
Gato | 2022 | ✓ | ✗ | ✗ | ✓ | ✗ |
VIMA | 2022 | ✓ | ✗ | ✗ | ✓ | ✗ |
Diffusion Policy | 2023 | ✓ | ✗ | ✗ | ✓ | ✗ |
ACT | 2023 | ✓ | ✗ | ✗ | ✓ | ✗ |
VoxPoser | 2023 | ✓ | ✗ | ✗ | ✓ | ✗ |
Seer | 2023 | ✓ | ✗ | ✗ | ✓ | ✗ |
Octo | 2024 | ✓ | ✗ | ✗ | ✓ | ✗ |
OpenVLA | 2024 | ✓ | ✗ | ✗ | ✓ | ✗ |
CogACT | 2024 | ✗ | ✓ | ✗ | ✓ | ✓ |
VLATest | 2024 | ✗ | ✗ | ✓ | ✗ | ✗ |
NaVILA | 2024 | ✗ | ✓ | ✗ | ✓ | ✓ |
RoboNurse-VLA | 2024 | ✓ | ✗ | ✗ | ✓ | ✗ |
Mobility VLA | 2024 | ✗ | ✓ | ✗ | ✓ | ✓ |
RevLA | 2024 | ✗ | ✗ | ✓ | ✗ | ✗ |
Uni-NaVid | 2024 | ✗ | ✓ | ✗ | ✓ | ✓ |
RDT-1B | 2024 | ✓ | ✗ | ✗ | ✓ | ✗ |
RoboMamba | 2024 | ✓ | ✗ | ✗ | ✓ | ✗ |
Chain-of-Affordance | 2024 | ✗ | ✗ | ✓ | ✗ | ✗ |
Edge VLA | 2024 | ✗ | ✗ | ✓ | ✗ | ✗ |
ShowUI-2B | 2024 | ✓ | ✗ | ✗ | ✓ | ✗ |
Pi-0 | 2024 | ✓ | ✗ | ✗ | ✓ | ✗ |
FAST (Pi-0 Fast) | 2025 | ✗ | ✗ | ✓ | ✓ | ✗ |
OpenVLA-OFT | 2025 | ✓ | ✗ | ✗ | ✓ | ✗ |
CoVLA | 2025 | ✗ | ✓ | ✗ | ✓ | ✓ |
OpenDriveVLA | 2025 | ✗ | ✓ | ✗ | ✓ | ✓ |
ORION | 2025 | ✗ | ✓ | ✗ | ✓ | ✓ |
UAV-VLA | 2025 | ✗ | ✓ | ✗ | ✓ | ✓ |
CombatVLA | 2025 | ✓ | ✗ | ✗ | ✓ | ✗ |
HybridVLA | 2025 | ✗ | ✓ | ✗ | ✓ | ✓ |
NORA | 2025 | ✓ | ✗ | ✗ | ✓ | ✗ |
SpatialVLA | 2025 | ✗ | ✗ | ✓ | ✓ | ✗ |
MoLe-VLA | 2025 | ✗ | ✗ | ✓ | ✓ | ✗ |
JARVIS-VLA | 2025 | ✓ | ✗ | ✗ | ✓ | ✗ |
UP-VLA | 2025 | ✓ | ✗ | ✗ | ✓ | ✗ |
Shake-VLA | 2025 | ✗ | ✗ | ✓ | ✓ | ✗ |
DexGraspVLA | 2025 | ✗ | ✓ | ✗ | ✓ | ✓ |
DexVLA | 2025 | ✗ | ✓ | ✗ | ✓ | ✓ |
Humanoid-VLA | 2025 | ✓ | ✗ | ✗ | ✓ | ✗ |
ObjectVLA | 2025 | ✓ | ✗ | ✗ | ✓ | ✗ |
分层架构已成为解决复杂长时任务的主流方法,通过将战略决策与反应式控制分离。例如,CogACT 和 NaVILA 采用两级层次结构,高层LLM规划器生成子目标,低层控制器负责具体执行,实现了“系统2”推理与“系统1”执行的优势结合。类似地,ORION 将QT-Former用于长期上下文聚合,并与生成式轨迹规划器集成于统一框架。
低层策略侧重于扩散式控制器(如 Pi-0、DexGraspVLA),能够生成平滑且多样化的运动分布,但通常计算开销较高。高层规划器(如 FAST Pi-0 Fast、CoVLA)则专注于快速子目标生成或粗略轨迹预测,将精细控制交由专用模块或传统运动规划器完成。端到端双系统模型(如 HybridVLA、Helix)则通过联合训练高低层组件,同时保留模块化可解释性,模糊了传统分层与端到端的界限。
表1进一步突出了近期 VLA 模型在架构权衡上的表现。例如,OpenDriveVLA~ 和 CombatVLA~ 等模型在动态、安全关键领域优先采用分层规划,而 Edge VLA~ 和 TinyVLA~ 等轻量级、面向边缘设备的系统则强调实时低层策略,牺牲了高层推理能力。这一分类框架不仅澄清了 VLA 的设计空间,还为未来发展指明了方向——如针对嵌入式部署的端到端分层模型,这类创新有望推动 VLA 在机器人、自动驾驶等领域的能力和应用边界。
表1 的分类意义在于:它为多样化 VLA 架构的比较提供了清晰框架,突出设计选择(如端到端集成与分层解耦)对任务性能、可扩展性和适应性的影响。通过按低层策略执行和高层规划等维度归类,研究者可以明确现有方法的优势与不足,发现创新机会。这一分类法有助于针对具体应用(如实时控制或战略推理)选择合适架构,并引导未来向响应性与认知规划兼备的混合系统发展,加速具身智能的进步。
此外,为了系统梳理 VLA 模型的最新进展,表2 对 2022 至 2025 年间的代表性系统进行了对比总结。基于早期融合、双系统处理、自纠错反馈等架构创新,这些模型融合了多样的设计理念和训练策略。每个条目都突出模型的核心组件——视觉与语言编码器、动作解码器——以及用于能力落地的数据集。CLIPort 和 RT-2 等模型通过语义嵌入与动作策略对齐奠定了基础,而 Pi-Zero、CogACT、Groot N1 等新框架则引入了可扩展的扩散式或高频控制器。部分模型采用互联网规模的视觉-语言预训练与机器人轨迹数据联合微调,显著提升了泛化与零样本能力。该表为研究者理解 VLA 架构的功能多样性、领域适用性和新兴趋势提供了参考,覆盖真实与仿真环境下的最新设计。
视觉-语言-动作模型的训练与效率进展
VLA(视觉-语言-动作)模型在训练和优化技术方面取得了快速进展,重点包括多模态输入对齐、计算资源降低以及实时控制能力提升。主要进展如下:
-
数据高效学习
- 联合微调(Co-fine-tuning):在大规模视觉-语言语料库(如 LAION-5B)和机器人轨迹数据集(如 Open X-Embodiment)上联合微调,实现语义理解与运动技能的对齐。OpenVLA(7B参数)在任务成功率上比55B参数的RT-2提升了16.5%,表明联合微调能以更少参数获得更强泛化能力。
- 合成数据生成:通过 UniSim 生成包含遮挡和动态光照的逼真场景,用于增强模型对罕见边界情况的鲁棒性,在复杂环境下性能提升超过20%。
- 自监督预训练:采用对比学习目标(如 CLIP)在动作微调前学习视觉-文本联合嵌入,减少对任务标签的依赖。Qwen2-VL利用自监督对齐,使下游抓取与放置任务收敛速度提升12%。
-
参数高效适配
- 低秩适配(LoRA):在冻结的Transformer层中插入轻量级适配器矩阵,将可训练参数减少至原来的30%,但性能基本不变。Pi-0 Fast仅用1000万适配器参数即可在静态主干上实现连续200Hz控制,精度损失极小。
-
推理加速
- 压缩动作token(FAST)与并行解码:在双系统架构(如 Groot N1)中实现2.5倍推理速度提升,单步策略延迟低于5毫秒,轨迹平滑性略有损失但满足实时需求。
- 硬件感知优化:包括张量核量化和流水线注意力内核,将运行时内存占用降至8GB以下,使模型可在嵌入式GPU上实时推理。
这些方法共同推动了 VLA 模型成为能够在动态、真实世界环境下处理语言条件和视觉引导任务的实用智能体。
VLA模型中的参数高效方法与加速技术
在数据高效训练的基础上,近期研究重点关注于降低VLA模型的参数规模和提升推理速度,这对于资源受限的机器人平台部署至关重要。
-
低秩适配(LoRA)
LoRA通过在冻结的Transformer层中注入小型可训练的低秩分解矩阵,实现对十亿参数级VLA模型的高效微调,仅需几百万额外参数。例如,OpenVLA利用LoRA适配器(2000万参数)在普通GPU上对7B主干模型微调,24小时内完成,GPU计算量降低70%。LoRA模型在适应新型机器人操作任务(如新物体形状)时,仍能保持高水平的语言理解和视觉推理能力,使大型VLA模型在无超级算力条件下也可训练和部署。 -
量化(Quantization)
将权重精度降低到8位整数(INT8)可使模型体积减半、芯片吞吐量翻倍。OpenVLA实验证明,在Jetson Orin平台上,INT8量化模型在抓取任务中保持97%的全精度成功率,细粒度操作精度仅下降5%。结合通道级校准的后训练量化方法,可进一步减少高动态范围传感器输入的精度损失。上述优化使50W边缘设备可实现30Hz连续控制循环。 -
模型剪枝(Model Pruning)
结构化剪枝可移除冗余的注意力头或前馈子层。在VLA领域虽研究较少,但Diffusion Policy等早期工作表明,剪除20%的卷积视觉编码器不会显著影响抓取稳定性。类似方法应用于Transformer型VLA(如RDT-1B),可将内存占用降低25%,任务成功率损失低于2%,为4GB以下部署铺平道路。 -
压缩动作标记化(FAST)
FAST将连续动作输出转化为频域token,将长时控制序列压缩为简洁描述。Pi-0 Fast模型通过将1000ms动作窗口编码为16个离散token,实现了300M参数扩散头下15倍推理加速,支持200Hz高频控制,适用于动态双臂装配等任务。该方法以极小的轨迹精度损失换取大幅速度提升。 -
并行解码与动作分块(Parallel Decoding and Action Chunking)
传统自回归VLA逐步解码动作token,存在串行延迟。并行解码架构(如Groot N1)可同时预测空间-时间token组,在7自由度机械臂100Hz控制下端到端延迟降低2.5倍,位置误差增加不足3mm。动作分块进一步将多步操作抽象为单一token(如“抓取并放置杯子”),在厨房等长时任务中推理步数减少40%。 -
强化学习-监督混合训练(RL-SL Hybrid Training)
iRe-VLA框架交替采用仿真中的强化学习和人类演示的监督微调以稳定策略更新。通过Direct Preference Optimization(DPO)塑造奖励模型,结合保守Q学习避免外推误差,iRe-VLA样本复杂度比纯RL降低60%,同时保持语言条件先验带来的语义一致性。该混合方法适用于反馈稀疏的动态避障等任务。 -
硬件感知优化(Hardware-Aware Optimizations)
编译器级图重写与内核融合(如NVIDIA TensorRT-LLM)可充分利用目标硬件特性(张量核、融合注意力、流水线内存传输),加速Transformer推理与扩散采样。在OpenVLA-OFT中,这类优化使RTX A2000 GPU推理延迟降低30%,单次推理能耗降低25%,使移动机器人和无人机上的实时VLA成为可能。
讨论
参数高效适配与推理加速技术共同推动了VLA模型的普及:
- LoRA和量化方法使小型实验室能够在消费级硬件上微调和运行十亿参数级VLA模型,为机器人带来前沿的语义理解能力。
- 剪枝和FAST标记化压缩了模型和动作表示,实现了低于4GB内存、低于5毫秒的控制循环,同时在精细操作任务中保持高精度。
- 并行解码与动作分块突破了自回归策略的串行瓶颈,支持100–200Hz的决策频率,满足灵巧操作和腿式机器人运动的实时需求。
- 强化学习与监督学习混合训练稳定了复杂环境下的探索,硬件感知编译则保障了边缘加速器上的实时性能。
这些进展使VLA模型能够实际部署于工业机械臂、辅助无人机和消费级机器人,推动其从研究原型走向真实世界的自主应用。
视觉-语言-动作模型的应用
VLA(视觉-语言-动作)模型正迅速成为具身智能的基础构件,将感知、自然语言理解和运动控制集成于统一架构之中。通过将视觉和语言模态编码到共享语义空间,并生成语境对齐的动作,VLA模型实现了智能体与环境的无缝交互。这种多模态能力使VLA成为众多现实场景中的变革性技术。在人形机器人领域,Helix和RoboNurse-VLA等系统结合视觉、语言和灵巧操作,能够辅助家庭任务和外科手术,展现出实时推理与安全控制能力。在自动驾驶领域,OpenDriveVLA和ORION等模型处理动态视觉流和自然语言指令,实现了复杂城市环境下的透明、适应性驾驶决策。工业应用中,VLA架构被用于高精度装配、检测和协作制造。在农业领域,VLA驱动的机器人系统支持视觉引导的果实采摘、植物监测和异常检测,降低了人工依赖并提升了可持续性。此外,最新的交互式增强现实系统利用VLA模型实现基于语音或视觉提示的实时空间导航,为室内外用户提供智能引导。总体而言,VLA为任务执行提供了统一、强健、可适应且语义对齐的框架,标志着具身通用智能体发展的关键转折。
表3系统总结了近年来VLA模型的代表性方法、应用领域及关键创新点。该表有助于读者快速了解各模型的技术路线、主要应用场景以及在架构、训练或部署方面的突出进展。
以下各小节将按照时间顺序深入探讨 VLA(视觉-语言-动作)模型的应用领域,具体如图11 所示。
人形机器人
人形机器人旨在模拟人体的形态与功能,是 VLA(视觉-语言-动作)模型应用中最具挑战性且最具影响力的领域之一。这类平台需要能够无缝感知复杂环境、理解口头或书面自然语言,并以接近人类的灵巧度执行复杂物理任务。VLA 模型的核心优势在于将感知、认知与控制统一到一个端到端可训练的框架,使人形机器人能够解释视觉输入(如 RGB-D 场景图像)、理解语言指令(如“把勺子放进抽屉”),并生成精确的运动轨迹。
近年来,VLA 在人形机器人领域的部署取得了显著进展。例如,Figure AI 开发的 Helix 人形机器人,采用全集成的 VLA 模型,实现了高频率的全身操作,能够实时控制手臂、手指、躯干等细粒度动作。其架构采用双系统设计:多模态 Transformer 处理语言指令和视觉流输入,实时运动策略模块以 200Hz 输出密集动作向量。这使 Helix 能够在无需针对具体任务重新训练的情况下,泛化到未见物体和新任务,并灵活适应环境变化。
VLA 在人形机器人中的关键优势是能够通过共享表征扩展到多样化任务。与传统依赖任务特定编程或模块化管道的机器人系统不同,VLA 驱动的人形机器人基于统一的 token 框架运行。视觉输入通过预训练的视觉-语言模型(如 DINOv2 或 SigLIP)编码,指令则由大型语言模型(如 Llama-2 或 GPT 系列)处理。这些表征融合为前缀 token,完整捕捉场景与任务语境。动作 token 以自回归方式生成,类似于文本解码,但实际代表机器人关节和末端执行器的运动指令。
这种能力使人形机器人能够高效地在以人为中心的空间(如家庭、医院、零售环境)中工作。在家庭场景下,VLA 驱动的机器人可通过语音指令完成清洁、简单烹饪或物品整理等任务。在医疗领域,RoboNurse-VLA 等系统已实现基于实时语音和视觉提示的精准手术器械递送。在零售场景中,配备 VLA 的人形机器人可协助客户咨询、补货、导航商店布局,无需显式预编程。
现代人形机器人VLA模型的突出特点在于能够运行于嵌入式、低功耗硬件,使得真实场景部署成为可能。例如,TinyVLA 和 MoManipVLA 等系统展示了高效的推理管道,可在 Jetson 级 GPU 上运行,实现了移动部署且不牺牲性能。这些模型采用扩散式策略、LoRA 微调和动态 token 缓存等技术,最大限度降低计算成本,同时保持高精度和强泛化能力。
在物流和制造领域,人形机器人VLA已开始产生商业影响。像 Figure 01 这样的机器人已在仓库中部署,能够与人类工人协作完成拣选、分拣和上架等重复且高强度的任务。其对新颖物体类别和动态场景的适应能力,得益于持续学习和强大的多模态语义对齐。
随着VLA模型在多样化动作生成、空间推理和实时自适应方面不断进步,人形机器人正逐步成为家庭、工业和公共空间中的高效助手。其核心优势在于通过统一的token架构,将感知、语言理解和运动控制整合,实现了在非结构化人类环境中的无缝、语境感知行为。
例如,如图12 所示,假设“Helix”是一款配备新一代 VLA 模型的先进人形机器人。当收到口头指令“请从冰箱拿出水瓶”时,Helix 会激活其集成感知系统:基础视觉-语言模型(如 SigLIP 或 DINOv2)对视觉场景进行分割,识别冰箱、把手和水瓶。语言输入则由大型语言模型(如 LLaMA-2)处理,将指令进行标记化并与视觉语境融合。融合后的表征被传递到分层控制器:高层策略规划任务序列(定位把手、拉开门、识别水瓶、抓取),中层规划器则定义运动原语,如抓取类型和关节轨迹。低层 VLA 控制器(通常基于扩散策略网络)以亚秒级延迟执行这些动作。当遇到变化(如瓶子倾斜或抓取打滑)时,Helix 的 agentic AI 模块会实时进行微策略调整,根据反馈动态修正抓取动作。该示例展示了人形 VLA 的变革性潜力:无论是厨房还是诊所,这些系统不仅能理解复杂指令并灵巧执行物理任务,还能适应环境的不确定性。通过嵌入 agentic 推理和安全对齐机制,现代人形机器人正从专用型任务执行者转变为通用、可信赖的协作伙伴。随着 TinyVLA 和 MoManipVLA 等高效模型的成熟,低功耗移动平台上的部署变得愈发可行,推动具身、社会对齐 AI 迈入新时代。
自动驾驶系统
自动驾驶车辆(AV),包括自动驾驶汽车、卡车和无人机,是 VLA 模型最前沿的应用领域之一。在这些场景中,安全关键的决策需要高度耦合的感知、语义理解和实时动作生成。与传统的自动驾驶模块化管道(将感知、规划和控制分离)不同,VLA 框架提供了一种集成式架构,能够在统一的自回归模型中处理多模态输入——包括视觉流、自然语言指令和内部状态信息——并输出精确的控制信号。
VLA 模型使自动驾驶系统能够超越像素级物体识别,理解复杂环境。例如,一辆自动驾驶汽车在城市环境中行驶时,必须检测交通标志、理解行人行为,并解析诸如“在加油站后第二个路口右转”这样的导航指令。这些任务要求融合视觉和语言信号,理解空间关系、预测意图,并生成语境感知的驾驶动作。VLA 通过基于 token 的表征实现这一目标,视觉编码器(如 ViT、CLIP)、语言模型(如 LLaMA-2)和轨迹解码器在统一的语义空间中协同工作,使车辆能够推理高层目标并将其转化为底层运动控制。
在自动驾驶领域,CoVLA 是一项具有代表性的工作,提供了一个全面的数据集,包含超过80小时的真实驾驶视频、同步传感器流(如激光雷达、里程计)、详细的自然语言注释以及高分辨率的驾驶轨迹。该数据集支持VLA模型在感知、语言与物理动作之间进行对齐训练。CoVLA采用CLIP进行视觉语义对齐,LLaMA-2进行指令嵌入,并通过轨迹解码器实现运动预测。这一配置使自动驾驶车辆能够理解口头指令(如“让行救护车”)和环境条件(如“汇入车流”),从而做出透明且安全的驾驶决策。
OpenDriveVLA 在VLA建模方面实现了重要突破,通过分层对齐2D/3D多视角视觉token与自然语言输入。其架构结合了自我空间感知与外部场景理解,构建了动态的智能体-环境-自我交互模型。通过自回归解码,OpenDriveVLA不仅生成可解释的动作计划(如转向角、加速度),还能输出人类可理解的轨迹可视化。该端到端框架在规划基准和驾驶相关问答任务上取得了业界领先的性能,展现了在城市导航和行为预测中的强大鲁棒性。
另一项开创性模型ORION,通过引入QT-Former保留长时视觉上下文,结合大型语言模型对交通场景进行推理,并集成生成式轨迹规划器,进一步推动了闭环自动驾驶的发展。ORION能够将视觉-语言模型的离散推理空间与自动驾驶运动的连续控制空间进行统一优化,实现了高精度的视觉问答(VQA)和轨迹规划,尤其适用于处理模糊人类指令或遮挡障碍物(如“在红色卡车后下高速”)等复杂场景。
例如,如图 13 所示,假设有一辆名为“AutoNav”的自动送货车,在密集的城市环境中运行,采用新一代 VLA 架构。当 AutoNav 接收到云端指令——“在面包店旁边红色遮阳篷附近投递包裹,然后避开施工区返回基地”——其车载视觉-语言模型(如 CLIP 或 SigLIP)会解析来自多路摄像头的视觉流,识别动态地标(如面包店标志、红色遮阳篷和交通锥)。同时,基于 LLaMA-2 的大型语言模型模块解码指令,并与实时传感器数据(包括激光雷达、GPS 和惯性里程计)融合。分层控制栈通过自回归 VLA 解码器处理这些多模态信号,将第一视角和世界坐标地图集成,实现自适应路径规划。当车辆接近投递点时,遇到突发的行人活动,智能体子模块会触发轨迹重规划,采用强化学习风格的策略优化流程。同时,AutoNav 会语音提醒行人并自动调整速度以确保安全。语义理解、感知对齐和自适应控制的协同,充分展现了 VLA 系统在安全关键场景下实现可解释、人类对齐行为的能力,也体现了其在自主性、透明性和决策敏捷性方面超越传统感知-规划-控制管道的优势。
在空中机器人领域,VLA 模型显著提升了送货无人机和 UAV 的能力。以 UAV-VLA 为代表的模型,融合了卫星影像、自然语言任务描述和机载传感器,实现了高层指令的自主执行(如“将包裹送到蓝色防水布的屋顶平台”)。这些系统采用模块化 VLA 架构,视觉-语言规划器解析全局语境,飞行控制器则精确执行航点,广泛应用于物流、灾害响应和军事侦察等场景。
随着自主系统在非结构化环境中的应用日益广泛,VLA 模型为传统管道式方案提供了可扩展、可解释且数据高效的替代路径。通过大规模多模态数据集学习,并将决策过程建模为 token 预测,VLA 实现了人类语义与机器人运动的对齐,为更安全、更智能的自动驾驶与导航技术奠定了基础。
工业机器人
工业机器人正随着 VLA(视觉-语言-动作)模型的集成经历范式转变,催生出新一代具备高级推理、灵活任务执行和与人类自然沟通能力的智能机器人。传统工业机器人通常在高度结构化的环境中运行,依赖刚性编程,面对新的生产线或产品变体时往往需要大量重新配置和人工干预。这类系统缺乏语义理解和适应性,难以满足现代动态制造场景的需求。
相比之下,VLA 模型提供了更具人类可解释性和泛化能力的框架。通过联合嵌入视觉输入(如组件布局或传送带状态)、自然语言指令(如“拧紧红色模块上的螺丝”)以及机器人自身状态,VLA 能够实时推断上下文并执行合适的控制命令。其系统主干包括视觉 Transformer(如 ViT、DINOv2)、大型语言模型(如 LLaMA-2)以及自回归或扩散式动作解码器,使机器人能够解析多模态指令,并在实际环境中完成语义对齐的操作。
工业机器人领域最具代表性的贡献之一是 CogACT,这是一种专为工业机器人操作设计的组件化 VLA 框架。与早期依赖冻结视觉-语言嵌入并直接量化动作的 VLA 模型不同,CogACT 引入了基于扩散的动作 Transformer(DiT-Base),能够更稳健、灵活地建模动作序列。系统首先通过视觉-语言编码器(如 Prismatic-7B)提取高层场景和指令嵌入,然后将其传递给扩散 Transformer 以生成细粒度的运动控制信号。模块化分离不仅提升了对未知工具、零件和布局的泛化能力,还保证了模型在真实工业环境下的可解释性和鲁棒性。
此外,CogACT 支持高效微调,可快速适应不同机器人形态(如 6 自由度机械臂或双臂系统),适用于多样化工厂环境。实验证明,CogACT 在复杂高精度任务(如多步装配、螺丝拧紧、零件分拣)上的真实任务成功率比 OpenVLA 等前代模型提升超过 59%。
随着制造业向工业 4.0 转型,VLA 模型有望显著降低机器人编程门槛,支持语音指令式编程,并促进人机协作的实时混合任务执行。尽管执行精度、安全保障和延迟优化仍是持续研究热点,VLA 在工业机器人领域的应用已成为推动自主、智能和可适应工厂的重要里程碑。
医疗与医疗机器人
医疗与医疗机器人是对精度、安全性和适应性要求极高的领域,而这些正是VLA模型日益擅长提供的能力。传统医疗机器人系统主要依赖远程操作或预设程序,难以在动态的手术或护理环境中实现自主和灵活响应。相比之下,VLA模型通过集成实时视觉感知、语言理解和细粒度运动控制,赋予医疗机器人理解高层指令并自主执行复杂手术或辅助任务的能力。
在外科机器人领域,VLA模型能够显著提升微创手术的能力。这些系统可将腹腔镜视频流、解剖结构图和语音指令融合为统一的token化表征,利用视觉编码器(如ViT、SAM-2)和语言模型(如LLaMA、T5)进行处理。例如,如图14a所示,在“对左冠状动脉进行缝合”任务中,视觉模块识别解剖目标,语言模块解析指令语境,动作解码器则将融合后的语义嵌入转化为逐步运动指令,实现亚毫米级精度。这使得机器人能够自适应调整工具位置、动态施加力反馈、避开关键结构,减少外科医生的微观干预并降低人为失误风险。
除了手术室之外,VLA模型还推动了新一代患者辅助机器人在养老、康复和医院物流等领域的应用。这些系统能够自主感知患者行为,理解语音或手势输入,并执行如取药、引导助行器、紧急通知护理人员等响应性任务。例如,如图14b所示,VLA驱动的机器人可以视觉检测患者试图起身,理解“请把我的助行器拿来”这样的口头请求,并生成语境适应的运动计划进行辅助——无需预设脚本或持续人工监督。
近期的 VLA 框架(如 RoboNurse-VLA)展示了该方法在真实医疗场景中的可行性。RoboNurse-VLA 采用 SAM-2 进行语义场景分割,结合 LLaMA-2 进行指令理解,并集成了实时语音到动作的管道,使机器人能够在手术室辅助递送手术器械。该系统在多样化工具、复杂光照和嘈杂环境下表现出强大的鲁棒性,解决了临床环境中的常见挑战。
此外,VLA 架构在可解释性和可审计性方面具有显著优势,这对于受监管的医疗领域至关重要。场景语义对齐和轨迹预测过程可视化,便于事后回顾和临床信任,并有助于实现类似 FDA 的验证流程。基于 LoRA 的微调技术支持模型针对特定医院环境或手术流程进行高效适配,所需数据和算力极低。
更重要的是,VLA 模型的多模态基础使其具备跨领域迁移能力:同一个模型在经过外科器械操作训练后,仅需少量再训练即可适应患者移动等任务。这种模块化极大降低了开发成本和周期,相比传统的任务专用自动化系统更具优势。随着医疗机器人从远程操作辅助向半自主和协作式系统转型,VLA 模型正成为这一变革的核心技术。
通过结合高层语义理解与低层精细控制,VLA 为可扩展、以人为本且自适应的医疗机器人提供了统一解决方案。面对医疗系统日益增长的需求和人力短缺,VLA 驱动的机器人将在提升医疗精准度、运营效率和患者关怀方面发挥关键作用。
精准与自动化农业
如图15所示,VLA(视觉-语言-动作)模型正在成为精准与自动化农业领域的变革性工具,为多样化农田环境中的高强度任务提供智能、自适应的解决方案。与传统农业自动化系统依赖刚性传感器管道、每遇新任务或环境变化都需人工重编程不同,VLA模型将多模态感知、自然语言理解和实时动作生成集成于统一框架,使地面机器人和无人机能够解释复杂田间场景,理解语音或文本指令,并生成语境感知的动作(如选择性采摘或自适应灌溉)。VLA具备根据遮挡、地形变化或作物类型动态调整的能力,并可通过合成、逼真的训练数据集实现跨地域、跨季节泛化。结合动作标记化、基于Transformer的策略生成和LoRA微调等技术,这些系统正在重塑农业机器人在可持续与精准农业中的智能化与可扩展性。
在现代果园和农田中,VLA(视觉-语言-动作)模型能够处理来自RGB-D摄像头、多光谱传感器或无人机的视觉输入,实现对植物生长的监测、病害检测和营养缺陷识别。视觉Transformer(如ConvNeXt、DINOv2)负责对视觉场景进行空间和语义编码,大型语言模型(如T5、LLaMA)则解析自然语言指令,例如“检查东侧地块是否有白粉病”或“在灌溉沟附近采摘成熟苹果”。通过token融合,这些模态在共享表征空间中对齐,使机器人能够精确执行细粒度、语境感知的动作。
例如,在果实采摘任务中(见图15}),配备VLA的地面机器人可利用图像识别成熟度,理解用户指定的标准(如“只采摘A级果实”),并通过动作token控制末端执行器完成运动序列。该方法确保最小化作物损伤,优化采摘效率,并能实时适应遮挡、地形变化等突发情况。在灌溉管理方面,VLA驱动的无人机可解析田间地图和语音指令,针对受旱区域进行选择性灌溉,水资源利用率提升可达30%。
此外,VLA模型支持动态重配置和终身学习。借助基于真实农田环境的合成训练数据集(如3D果园渲染),模型可在无需大量人工标注的情况下学习识别病虫害、杂草和作物成熟阶段。LoRA适配器和扩散式策略微调等技术进一步提升了模型对新作物、季节和地理区域的泛化能力。
VLA模型集成到农业生产流程中带来显著优势:降低对熟练劳动力的依赖,通过精准干预提升产量,并通过优化投入实现环境可持续性。随着全球粮食系统面临气候变化和资源约束,VLA赋能的智能农业将在推动可扩展、高效和可持续的农场管理中发挥关键作用。
基于视觉-语言-动作模型的交互式增强现实(AR)导航
交互式增强现实(AR)导航是 VLA(视觉-语言-动作)模型能够显著提升人机环境交互的前沿应用。通过智能、语境感知的实时导航指导,VLA模型使用户能够在物理世界中获得动态、个性化的导航体验。与传统依赖静态地图和有限输入的GPS导航不同,基于VLA的AR智能体能够处理来自AR设备(如智能眼镜或手机)的连续视觉流,并结合自然语言查询,生成直接叠加在用户视野上的导航提示。例如,用户可以提出“带我去最近有无障碍坡道的药店”或“显示去会议室最安静的路线”等自由指令,系统会智能解析并响应。
技术上,VLA模型集成了视觉编码器(如ViT、DINOv2)用于提取第一视角RGB图像的场景特征,语言编码器(如T5或LLaMA)用于处理用户文本或语音指令,动作解码器则预测导航token(如方向箭头、路径点或语音提示)。Transformer架构融合多模态信息,能够推理空间布局与语义意图,使AR智能体在用户视野中自适应地高亮路径、地标和障碍物。例如,如图16所示,在拥挤的机场场景下,VLA智能体可识别自动扶梯、登机口、行李区,并理解“如何不走楼梯到22号登机口”等查询,根据实时人流和障碍动态调整路线。
VLA还支持交互式反馈循环,用户可不断细化指令(如“避开拥挤区域”或“选择风景优美路线”),系统则提供语境感知的导航建议,极大提升了视障或认知障碍人群的可达性。在物流和室内导航领域,VLA系统可与物联网(IoT)传感器和数字孪生集成,为仓库工人、维修团队或配送机器人在复杂环境中提供精准引导。此外,通过持续微调,VLA模型能够学习用户偏好和本地空间布局,实现个性化导航体验。
随着增强现实(AR)硬件变得更加普及和经济实用,基于VLA的导航系统将实现无缝的空间理解、多模态交互和自主引导,广泛应用于公共、工业和辅助场景——重新定义人类对物理空间的感知、探索与互动方式。
视觉-语言-动作模型的挑战与局限
VLA(视觉-语言-动作)模型在从研究原型走向真实世界系统的过程中,面临一系列相互关联的挑战。首先,实现实时、资源感知的推理仍然困难。例如,DeeR-VLA 通过动态早退出架构在操作基准上将计算量减少了 5–6 倍,同时保持了准确性,但在复杂场景下其优势会减弱。类似地,Uni-NaVid 压缩了第一视角视频 token,实现了 5Hz 导航,但在高度模糊指令和长时任务中仍然表现不佳。即使是先进的混合视觉-语言对齐方案(如 ObjectVLA),在新颖物体上的泛化率也仅为 64%,凸显了开放世界鲁棒性方面的持续瓶颈。
其次,如何在极少监督和稀疏、噪声数据下稳定地适配 VLA 模型并更新策略也是一大难题。ConRFT 结合了行为克隆和 Q 学习,并通过人类参与微调,在八项高接触任务上快速收敛至 96.3% 的成功率,但高度依赖专家干预和奖励塑造。分层框架如 Hi Robot 将高层推理与低层执行解耦,以提升指令对齐能力,但模块间协调和模糊反馈的语义落地仍具挑战。类似地,TLA 将触觉流与语言命令融合,在未见的插销任务上取得了 85% 以上的成功率,但数据广度和实时多步解码仍限制了更广泛的泛化能力。
此外,要在动态环境中实现安全、泛化和端到端可靠性,需要新的建模与评估标准。例如,Occupancy-Language-Action模型(如OccLLaMA)将三维场景理解与动作规划统一,但在丰富场景动态和跨模态语义一致性方面仍需扩展。RaceVLA通过量化、迭代控制环实现高速无人机导航,但其视觉-物理泛化能力仍落后于更大规模的VLA和专用推理模型。ReVLA的模型融合策略可恢复丢失的域外视觉鲁棒性,提升OOD抓取成功率高达77%,但也带来了额外的计算和系统复杂度。SafeVLA通过约束马尔可夫决策过程(CMDP)将不安全行为减少超过80%,但如何为多样化真实任务定义全面且不限制性能的安全规则仍是开放问题。解决这些交叉挑战,是VLA模型在复杂真实机器人环境下实现可靠自主运行的关键。
在上述关键挑战基础上,必须将每项问题与针对性的缓解策略进行映射,并预测其系统级影响。表4将这一映射整理为三栏:明确核心局限、提出近期技术进展中的具体解决方案,并阐述对VLA实际部署的预期益处。例如,针对实时推理瓶颈,可采用并行解码、量化Transformer和硬件加速(如TensorRT),以支持无人机和机械臂的高频控制循环。多模态动作表征可通过扩散-自回归混合策略丰富模型在复杂任务中的语境敏感运动生成能力。为保障开放环境下的安全,可集成动态风险评估模块和自适应规划层,实现对突发情况的低延迟紧急停止。数据集偏差与语义对齐问题,则可通过多样化去偏数据和先进的对比微调技术加以缓解,提升模型在新物体和场景上的公平性与语义一致性。上述解决路径——涵盖仿真到现实迁移、触觉集成、能效优化等——共同构建了VLA研究向可靠、可扩展自主系统转型的技术路线图。
本节余下内容分为五个聚焦子章节,分别针对文献中识别出的 VLA 挑战进行系统分析。首先,我们讨论实时推理约束及其最新解决方法。其次,深入探讨多模态动作表征与开放世界安全保障。第三部分分析数据集偏差、语义对齐策略以及对未见任务的泛化能力。随后,探讨系统集成复杂性与计算资源需求。最后,评述 VLA 在实际部署中的鲁棒性与伦理影响。
实时推理约束
实时推理是 VLA(视觉-语言-动作)模型在机器人操作、自动驾驶和无人机控制等对延迟极为敏感的应用中面临的核心瓶颈。当前主流 VLA 模型多依赖自回归解码策略,即每一步动作 token 都需基于前一步预测顺序生成。这种方法虽然在许多任务中有效,但极大限制了推理速度,通常仅能达到 3–5 Hz,远低于机器人系统所需的 100 Hz 甚至更高频率,难以满足精细、流畅的实时控制需求。例如,在机械臂操作易碎物体时,必须频繁更新位姿以保证精度和安全,否则易造成损坏。像 OpenVLA 和 Pi-0 等模型在动态环境下受限于顺序 token 生成,难以实现高频实时响应。
为解决这一问题,部分新兴方法如 NVIDIA 的 Groot N1 引入了并行解码机制,可同时预测多个动作 token,将推理速度提升约 2.52 倍。然而,并行解码往往带来轨迹平滑性下降,导致机器人运动出现抖动或不自然,这在外科手术等高精度场景下尤为不可接受。因此,如何在保证输出质量的前提下实现高速推理,仍是亟待突破的难题。
此外,硬件资源限制进一步加剧了实时推理的挑战。例如,处理高维视觉嵌入(通常包含 400 个 512 维 vision token)时,内存带宽需求高达 1.2 GB/s,远超当前嵌入式系统或边缘 AI 芯片(如 NVIDIA Jetson)的能力,严重制约了实际部署。即便采用高效量化技术(如降低浮点精度),在需要亚毫米级精度的任务(如双臂机器人操作或医疗机器人)中,模型仍可能出现精度损失,影响任务可靠性。
多模态动作表征与开放世界安全保障
多模态动作表征: 当前 VLA(视觉-语言-动作)模型在准确表征多模态动作方面存在显著局限,尤其是在需要连续、细致控制的场景下。传统的离散 token 化方法(如将动作分为 256 个离散区间)精度有限,导致在精细操作任务(如微妙的机器人抓取或复杂的外科手术)中出现较大误差。例如,在装配任务中的精密操作,离散表征可能导致动作偏差,影响性能和可靠性。另一方面,基于连续多层感知机(MLP)的方法则容易出现模式坍塌(mode collapse),即模型仅收敛于单一路径,无法表达多样化的动作选择,降低了在动态环境下的适应性。新兴的扩散式策略(如 Pi-Zero 和 RDT-1B)能够更丰富地表达多模态动作分布,捕捉多样化的策略可能性,但其计算开销较大,约为传统 Transformer 解码器的三倍,难以满足实时部署需求。因此,现有 VLA 模型在复杂动态任务(如拥挤空间中的机器人导航或高难度双臂操作)中,仍难以实现多策略、语境敏感的动作生成。
开放世界安全保障: 在动态、不可预测的真实环境中,VLA 模型的安全保障也是一项关键挑战。许多现有系统高度依赖预设的力和扭矩阈值,导致在遇到突发障碍或环境变化时适应性受限。例如,在仓储物流或家庭机器人等安全边界极窄的场景下,碰撞预测模型在复杂环境中的准确率仅约 82%,存在较高风险。紧急停止等安全机制通常需要 200–500 毫秒的延迟,以完成全面的安全校验。虽然这一延迟看似较小,但在高速操作或关键干预(如自动驾驶或应急机器人响应)中,可能造成严重安全隐患。
数据集偏差、语义对齐与对未见任务的泛化
影响 VLA(视觉-语言-动作)模型有效性的一个重要障碍是数据集偏差和语义对齐不足。当前主流训练数据集多来源于网络爬取,普遍存在固有偏见。例如,研究表明,标准数据集中约有 17% 的关联倾向于刻板印象,如将“医生”过度关联为男性形象。这些偏见在训练过程中被模型继承,导致 VLA 在多样化环境中产生语义不一致或语境不当的响应。以 OpenVLA 为例,其在新场景下约有 23% 的物体引用被忽略,严重影响了模型在实际应用中对指令的准确理解和执行。此外,语义对齐问题还体现在组合泛化能力不足——模型在遇到罕见或非常规组合(如“黄色的马”)时容易出错,原因是训练语料中相关样本极少。这些问题凸显了亟需构建更均衡、全面的数据集,并发展先进的语义对齐算法,以消除偏见并提升模型在多样化语境下的语义一致性。
除了数据集偏差带来的挑战,VLA 模型在对未见任务的泛化能力方面也存在明显不足,这成为实际部署的关键障碍。现有模型在熟悉环境或与训练场景相似的任务中表现良好,但一旦遇到全新任务或环境变化,性能往往显著下降——降幅可达 40%。例如,专门在家庭任务上训练的 VLA,迁移到工业或农业场景时,常因物体类型、环境动态和操作约束的差异而表现不佳。这一局限主要源于模型对狭窄训练分布的过拟合,以及缺乏多样化任务表征的训练经历。因此,当前 VLA 在零样本或少样本学习场景下适应性和可扩展性有限,难以满足实际应用需求。
系统集成复杂性与计算资源需求
在机器人应用中,将 VLA(视觉-语言-动作)模型集成到双系统架构(即高层认知规划 System 2 与实时物理控制 System 1)中,面临显著的系统复杂性挑战。首先,两个系统的时间尺度严重不匹配:System 2 通常采用大型语言模型(如 GPT 或 Llama-2)进行复杂任务分解和战略规划,其单次推理延迟常达 800 毫秒以上;而 System 1 负责底层运动控制,控制循环间隔仅为 10 毫秒左右。这种运行节奏的差异导致同步困难,容易引发延迟和执行轨迹不理想。例如,NVIDIA 的 Groot N1 虽然有效集成了双系统,但在实际运行中仍会因异步交互导致动作不连贯,凸显了该问题的普遍性。
其次,高维视觉编码器(如 Vision Transformer, ViT)与低维动作解码器之间的特征空间不一致,加剧了集成难度。不同模态嵌入在融合时容易失去感知与动作之间的语义一致性。OpenVLA 和 RoboMamba 等模型在将 transformer 视觉处理与动作解码结合时,常因特征对齐不佳而在从仿真到真实硬件部署时性能下降,实际表现最多可降低 32%,主要原因在于仿真动力学与真实传感器噪声或校准误差的差异。
最后,能耗与算力需求也是 VLA 部署的重大障碍,尤其是在无人机、移动机器人和可穿戴设备等边缘计算场景下尤为突出。主流 VLA 模型参数量巨大(如 70 亿参数),原生推理需 28GB 以上显存,远超当前主流边缘处理器和 GPU 的能力,严重限制了高性能 VLA 在实际低资源环境中的应用落地。
VLA模型的鲁棒性与伦理挑战
VLA(视觉-语言-动作)模型在实际部署过程中面临显著的环境鲁棒性和伦理挑战。环境鲁棒性指的是VLA系统在动态变化条件下保持稳定、准确性能的能力。现实世界环境常常带来不可预测的变化,如光照波动、天气变化或部分遮挡。例如,OpenDriveVLA等系统中的视觉模块在低对比度或阴影较重的场景下,准确率会下降约20–30%,主要原因是当前视觉编码器处理能力有限。类似地,CoVLA等VLA模型在嘈杂或语义模糊的语音环境下,语言理解能力会受到影响,导致指令解析错误,进而影响任务执行。此外,像RoboMamba这样的VLA机器人在杂乱环境中进行操作时,常因物体部分遮挡而误判位置或朝向,降低了任务成功率。
伦理方面,VLA模型在数据隐私、偏见和公平性等问题上也面临挑战。模型训练过程中可能继承数据集中的刻板印象或偏见,导致在实际应用中出现不公平或歧视性行为。隐私保护也是关键问题,尤其是在医疗、家庭等敏感场景下,如何确保用户数据安全、避免信息泄露,是VLA系统必须解决的重要课题。
综上,提升VLA模型的环境鲁棒性和伦理保障,需要在视觉、语言处理模块上持续优化,并加强数据多样性、去偏和隐私保护机制,确保系统在复杂环境下的可靠性和社会责任。
讨论
如图17所示,VLA(视觉-语言-动作)模型面临着多维度的挑战,涵盖算法、计算资源和伦理等方面。首先,由于自回归解码器的顺序特性以及多模态输入的高维度,实现实时推理在资源受限硬件上仍然困难。其次,将视觉、语言和动作融合为一致的策略,在遇到不可预期的环境变化时容易引发安全隐患。第三,数据集偏差和语义对齐错误会削弱模型的泛化能力,导致在分布外任务上表现不佳。第四,集成感知、推理和控制等多种组件会导致架构复杂,难以优化和维护。第五,大型VLA系统的能耗和算力需求限制了其在嵌入式或移动平台上的部署。最后,环境鲁棒性和伦理问题(如隐私保护与偏见消除)也带来了社会和监管层面的挑战。上述限制共同制约了VLA模型在真实机器人、自动系统和交互式应用中的实际落地。针对这些挑战,后文将详细讨论潜在的解决方案。
潜在解决方案
-
实时推理约束。
未来研究需开发能够兼顾延迟、吞吐量和任务精度的 VLA 架构。一个有前景的方向是集成专用硬件加速器——如基于 FPGA 的视觉处理器和针对稀疏矩阵运算优化的张量核——以实现卷积和 Transformer 层的亚毫秒级执行。模型压缩技术(如低秩适配 LoRA 和知识蒸馏)可将参数量缩减高达 90%,在保持基准任务 95% 以上性能的同时,显著降低内存占用和推理时间。结合混合精度运算(如 FP16/INT8)的渐进式量化策略与分块校准,可进一步将计算量减少 2–4 倍,且精度损失极小。自适应推理架构(如 DeeR-VLA 的早退出分支)可根据输入复杂度动态调整网络深度或宽度,在视觉场景或语言指令较简单时选择性跳过部分 Transformer 层,从而降低平均计算量。最后,利用子词 patch 嵌入和动态词汇分配的高效标记化方案,可将视觉和语言输入压缩为紧凑表征,在不损失语义丰富性的前提下减少 token 数量。上述创新有望在普通边缘 GPU 上实现端到端低于 50 毫秒的推理,为自动无人机飞行、实时远程操作和协作制造等对延迟敏感的应用铺平道路。-
实时推理约束。
未来研究需开发能够兼顾延迟、吞吐量和任务精度的 VLA 架构。一个有前景的方向是集成专用硬件加速器——如基于 FPGA 的视觉处理器和针对稀疏矩阵运算优化的张量核——以实现卷积和 Transformer 层的亚毫秒级执行。模型压缩技术(如低秩适配 LoRA 和知识蒸馏)可将参数量缩减高达 90%,在保持基准任务 95% 以上性能的同时,显著降低内存占用和推理时间。结合混合精度运算(如 FP16/INT8)的渐进式量化策略与分块校准,可进一步将计算量减少 2–4 倍,且精度损失极小。自适应推理架构(如 DeeR-VLA 的早退出分支)可根据输入复杂度动态调整网络深度或宽度,在视觉场景或语言指令较简单时选择性跳过部分 Transformer 层,从而降低平均计算量。最后,利用子词 patch 嵌入和动态词汇分配的高效标记化方案,可将视觉和语言输入压缩为紧凑表征,在不损失语义丰富性的前提下减少 token 数量。上述创新有望在普通边缘 GPU 上实现端到端低于 50 毫秒的推理,为自动无人机飞行、实时远程操作和协作制造等对延迟敏感的应用铺平道路。 -
多模态动作表征与安全保障。
要实现多模态动作表征和强健安全性,需要端到端框架将感知、推理与控制统一在严格安全约束下。混合策略架构结合扩散式采样(用于低层运动原语)与自回归高层规划器,可紧凑地建模多样化动作轨迹,提升动态环境下的适应性。安全保障可通过实时风险评估模块实现,融合视觉、深度和本体传感器流,预测碰撞概率和关节应力阈值,当超出预设安全边界时触发紧急停止。强化学习算法结合约束优化(如 SafeVLA 中的拉格朗日方法),可在严格遵守安全约束的前提下最大化任务成功率。在线模型自适应技术(如基于规则的 RL 和 DPO)可在新环境下持续优化动作选择,确保各场景下安全性能一致。关键的是,集成形式化验证层,对规划器输出进行符号分析,可在神经网络控制器执行前保证安全不变性。上述方法的融合将使 VLA 系统不仅能执行复杂多模态动作,还能在非结构化真实环境中实现可证明的安全保障。 -
数据集偏差、语义对齐与未见任务泛化。
要实现强泛化能力,需同时扩展数据多样性和采用先进学习范式。构建大规模、去偏的多模态数据集——如结合互联网级图文语料(LAION-5B)与机器人轨迹库(Open X-Embodiment)——为公平语义对齐奠定基础。通过硬负样本采样和视觉-语言主干(如CLIP变体)的对比微调,可缓解虚假相关性并提升语义一致性。元学习框架通过跨任务共享先验,实现对新任务的快速适应,已在视觉-语言导航机器人中得到验证。持续学习算法结合回放缓冲区与正则化策略,能在引入新知识时保留旧知识,有效解决VLA模型的灾难性遗忘。3D感知领域的迁移学习(如3D-VLA中的点云推理)可赋予模型空间归纳偏置,提升分布外鲁棒性。最后,仿真到现实(sim2real)微调结合域随机化与真实校准(如动态光照、纹理和物理变化),确保在合成环境中学到的策略能有效迁移到真实机器人。这些策略的结合将使VLA模型在实际部署中能够自信地泛化到未见物体、场景和任务。 -
系统集成复杂性与计算资源需求。
为在有限算力下高效管理多模态管道的复杂协同,需采用模型模块化与软硬件协同设计。低秩适配(LoRA)可注入预训练Transformer层,实现任务特定微调而无需修改主干权重。通过知识蒸馏,将大型“教师”VLA模型的信息迁移到轻量级“学生”网络(采用互信息目标),可获得参数量减少5–10倍但性能保持90–95%的紧凑模型。混合精度量化结合量化感知训练,可将权重压缩至4–8位,内存带宽和能耗降低60%以上。针对VLA负载优化的硬件加速器(支持稀疏张量运算、动态token路由和融合视觉-语言内核),可在20–30W功耗下实现持续100+TOPS算力,满足嵌入式机器人平台需求。TensorRT-LLM和TVM等工具链可针对特定边缘设备优化VLA计算图,实现层融合和静态子图预计算。新兴架构如TinyVLA已证明,参数量低于1B的VLA模型可在操作基准上实现接近SOTA的性能并支持实时推理,为资源受限场景的大规模部署铺平了道路。 -
VLA部署中的鲁棒性与伦理挑战。
确保VLA系统的鲁棒性和伦理合规性需要技术手段与治理措施的协同。通过领域随机化和合成增强管道(如UniSim的闭环传感器模拟器),可以生成在光照、遮挡和传感器噪声等方面具有高度真实感的环境变体,从而提升模型对环境变化的适应能力。自适应校准模块能够根据实时反馈调整感知阈值和控制增益,有效缓解长期运行中的漂移和传感器性能退化。在伦理层面,偏见审查工具需对训练数据集中的人口或语义分布偏差进行检测,并通过对抗性去偏和反事实增强进行纠正。隐私保护推理可通过本地处理、同态加密敏感数据流,以及训练过程中的差分隐私技术,保障医疗和智能家居等场景下用户数据安全。社会经济影响方面,应通过透明的影响评估和利益相关方参与,确保VLA应用通过技能提升项目补充人类劳动力,而非大规模替代。最后,建立VLA安全与责任的监管框架和行业标准,将为负责任创新提供基础,实现技术能力与社会价值的平衡。
-
未来发展路线图
VLA模型的未来在于更强大的多模态基础、智能体式推理与具身持续学习的交汇。未来十年,多个趋势将推动VLA从专注于狭窄任务的专家,迈向真正通用机器人智能的核心。
-
多模态基础模型作为“皮层”
当前的VLA通常将视觉-语言骨干与任务特定的策略头结合。未来,我们预计将出现单一的大规模多模态基础模型——在网页级图像、视频、文本和可供性数据上训练——作为共享的感知与概念“皮层”。该基础模型不仅能编码静态场景,还能理解动态、物理和常识世界知识,使下游动作学习者能够利用统一的表征,而无需为每个机器人或领域重复基础感知技能。 -
智能体式、自监督的终身学习
未来的VLA将不再依赖静态预训练,而是通过与环境持续、自监督的交互不断学习。智能体框架——模型自主生成探索目标、假设结果,并通过模拟或真实回滚自我纠错——将推动技能快速获取。通过制定内部子目标(如“学会打开抽屉”、“映射家具可供性”)并整合强化反馈,VLA驱动的人形机器人可在多年部署中自主扩展能力,类似人类学徒成长。 -
分层、神经-符号规划
为实现从低级运动原语到高级推理的扩展,VLA将采用分层控制架构。顶层语言驱动规划器(如针对可供性推理微调的LLM变体)将复杂指令(如“泡一杯茶”)分解为子任务序列(如“取水壶”、“加水”、“加热”、“浸泡茶包”)。中层模块将其转化为参数化运动计划,底层扩散或Transformer控制器则实时生成平滑、顺应的轨迹。这种神经-符号融合既保证了结构化计划的可解释性,也兼具学习策略的灵活性。 -
通过世界模型实现实时适应
在非结构化环境中实现鲁棒性,要求VLA具备内部预测世界模型——即对物体、接触和智能体动态的实时仿真。机器人在行动时不断将预测与传感器反馈对齐,发现偏差(如抓取打滑)时采用基于模型的纠正。可微分物理和视频到状态编码器的进步,将使这些世界模型既准确又高效,足以在本地实时运行。 -
跨具身与迁移学习
针对每种机器人形态单独训练VLA的时代将被具身无关策略取代。通过在抽象、运动学无关空间编码动作(如“在这些可供点施加抓握力”),未来VLA可在轮式平台、四足机器人和人形机器人间无缝迁移技能。结合元学习,新机器人仅需几分钟校准数据即可快速继承已有技能。 -
安全、伦理与以人为本的对齐
随着VLA自主性提升,内置安全与价值对齐变得不可或缺。未来系统将集成实时风险评估器——在执行高风险动作前评估对人或财产的潜在危害,并在模糊场景下通过自然语言征求同意。监管约束和社会感知策略将嵌入VLA体系,确保机器人遵循人类偏好和法律规范。
如图18所示,未来基于VLA的机器人将由三大核心组件融合驱动:视觉-语言模型(VLM)、VLA架构,以及智能体式AI系统。以“Eva”这一通用型人形助手为例,其在家庭环境中运行。感知层由基础VLM负责,将多模态输入分割为离散的物体级表征,预测可供性(如可抓取、易碎),并通过内部世界模型模拟动态行为。该VLM层实现了基于语言语义和物理属性的高级视觉理解。当用户发出指令(如“Eva,清理咖啡渍并给植物浇水”)时,VLA模块启动。该核心架构结合了语言输入的分词和传感器反馈,执行分层任务规划。高层规划器将指令分解为可执行子任务(如定位抹布、擦拭污渍、取水壶),再由中层策略模块转化为运动轨迹。这些计划最终交由低层扩散策略控制器,生成平滑且符合物理约束的关节动作,适配机器人本体。智能体式AI模块则支持持续学习与自适应。当遇到意外挑战(如顽固污渍)时,Eva会启动内部自我改进循环,实时模拟多种变体,无需人工干预即可优化擦拭策略。安全与对齐通过人类感知策略实现:配备接近传感器、实时监控,并在高风险动作前进行语言确认。夜间,Eva会自主回顾性能日志,通过模拟回滚优化子策略。VLM-VLA-智能体三元组的协同,标志着具身AGI的重大飞跃,使机器人如Eva能够感知、规划、行动、自适应,并安全地与人类共处,最终实现智能系统在真实环境中的稳健、可解释和以人为本的交互。
结论
在本综述中,我们系统性地评估了过去三年发布的 VLA(视觉-语言-动作)模型的最新进展、方法和应用。我们的分析首先介绍了 VLA 的基础概念,明确其作为多模态系统的角色——在物理或模拟环境中统一视觉感知、自然语言理解与动作生成。我们梳理了 VLA 的发展历程,详细描述了从孤立的感知-动作模块到完全统一、可执行指令的机器人智能体的关键里程碑,并强调了多模态集成的成熟过程——从松散耦合的管道到基于 Transformer 的架构,实现了模态间的无缝协同。
随后,我们探讨了 VLA 的编码与表征技术,重点分析了视觉与语言信息的编码方式,包括动作原语和空间语义。我们还深入学习范式,介绍了塑造 VLA 性能的数据集与训练策略——涵盖监督学习、模仿学习、强化学习和多模态预训练。在自适应控制与实时执行部分,我们讨论了现代 VLA 如何针对动态环境进行优化,介绍了支持低延迟任务的策略。我们对主要架构创新进行了分类,调研了 50 余种最新 VLA 模型,包括模型设计、记忆系统和交互保真度的进步。我们进一步研究了训练与效率提升策略,如 LoRA、量化、模型剪枝等参数高效方法,以及并行解码和硬件感知推理等加速技术。
在实际应用方面,我们展示了 VLA 模型在六大领域的部署:人形机器人、自动驾驶、工业自动化、医疗健康、农业和增强现实(AR)导航。每个应用均结合模型性能、领域挑战和泛化能力进行评述。
针对挑战与局限,我们聚焦于五个核心领域:实时推理、多模态动作表征与安全性、偏见与泛化、系统集成与算力约束,以及伦理部署。我们提出了当前文献中的潜在解决方案,包括模型压缩、跨模态对齐、领域自适应和智能体学习框架。最后,讨论与未来路线图部分阐述了 VLM(视觉-语言模型)、VLA 架构与智能体式 AI 系统的融合,如何推动机器人迈向人工通用智能(AGI)。本综述为 VLA 进展提供了统一理解,明确了尚未解决的挑战,并为开发智能、具身、以人为本的智能体指明了结构化发展路径。