LATENT ACTION PRETRAINING FROM VIDEOS
这是一篇基于论文 Latent Action Pretraining from Videos(ICLR 2025)整理的研究型技术博文。
LAPA:打破动作标签瓶颈的机器人潜在动作预训练
(Latent Action Pretraining)
这篇论文通过将视频帧间的视觉变化量化为离散的“潜在动作”,实现了一种无需物理动作标签即可利用大规模视频数据预训练机器人策略的新范式。
二、开篇摘要(Abstract-like Introduction)
在机器人学习(Robot Learning)领域,通往“基础模型”的道路上横亘着一个巨大的障碍:数据饥渴。与 NLP 和 CV 领域拥有海量互联网数据不同,训练机器人策略通常需要昂贵的、带动作标签(如关节角度、末端位移)的遥操作数据。
以往利用无标签视频(Video-to-Policy)的方法通常面临两难:要么依赖逆动力学模型(IDM)生成的伪标签质量参差不齐,要么通过视频生成模型进行规划推理速度过慢。这限制了机器人模型从 YouTube 等海量视频平台汲取知识的能力。
LAPA(Latent Action Pretraining) 提出了一种全新的无监督预训练思路:不要强行预测未知的物理动作,而是先学习“视觉上的潜在动作”。该方法先通过 VQ-VAE 学习离散的潜在动作 Codebook,再利用 VLM 在海量无标签视频上预训练对潜在动作的预测能力,最后仅需少量机器人数据即可微调出高性能策略。
本文将从 LAPA 的问题建模、三阶段训练流程,以及其在跨形态(Human-to-Robot)迁移上的惊人表现进行系统拆解。
三、问题定义(Problem Formulation)
LAPA 旨在解决的核心矛盾是:
如何利用海量无标签视频数据($D_{video}$)来提升依赖少量有标签数据($D_{robot}$)的机器人策略性能。
- 任务类型:Vision–Language–Action(VLA)Learning
- 输入(Input):
- 当前视觉观测 $x_t$
- 自然语言指令 $l$
- 输出(Output):
- 预训练阶段:离散的潜在动作 token $z_t$
- 部署阶段:具体的机器人控制命令 $a_t$(如 $\Delta$ end-effector pose)
- 核心挑战:
- 预训练数据 $D_{video}$ 中不存在 $a_t$
- 视频源可能来自人类或其他机器人,存在显著的形态差异(Embodiment Gap)
四、方法概述(Method Overview)
LAPA 的核心直觉是:动作的本质是状态的改变。
即使不知道具体的关节控制信号,也可以通过观察视频帧的变化来定义“发生了什么动作”。
LAPA 的整体流程由三个顺序执行的阶段组成:
- 潜在动作量化(Latent Action Quantization)
学习一个“动作词表”,将连续的视频帧变化压缩为离散 token。 - 潜在预训练(Latent Pretraining)
在无标签视频上训练 VLM 预测这些潜在 token,相当于在潜在空间中进行“视觉动作演练”。 - 动作微调(Action Finetuning)
使用少量机器人数据,将“视觉动作”映射为真实的“物理控制指令”。
这种设计有效地将高层语义规划(从海量视频中学习)与底层动力学控制(从少量机器人数据中学习)进行了解耦。
五、核心技术拆解(Core Technical Contributions)
5.1 潜在动作量化(Latent Action Quantization)
为了让 VLM 能够像处理文本一样处理动作,必须将连续的视觉变化离散化。
- 设计:采用基于 VQ-VAE 的编码器–解码器结构
- Encoder:输入当前帧 $x_t$ 与未来帧 $x_{t+H}$,输出离散潜在动作 $z_t$
- Decoder:输入 $x_t$ 与 $z_t$,重构未来帧 $x_{t+H}$
- 关键创新:完全基于像素级变化,不使用任何机器人真实状态信息
潜在动作 token 可被视为一种“视觉语言”,每个 token 对应一种环境变化模式(如“物体向左移动”“手靠近物体”)。 - 效果:原本无标签的互联网视频被自动标注为 $z_t$,从而转化为可监督学习的数据。
5.2 潜在预训练(Latent Pretraining)
这是 LAPA 获取通用能力的关键阶段。
- 模型基座:LWM-Chat-7B(Large World Model)
- 训练目标:在给定语言指令 $l$ 与当前观测 $x_t$ 的条件下,预测潜在动作 $z_t$
[
\mathcal{L}_{pre} = -\log P(z_t \mid x_t, l)
] - 本质理解:
这是在潜在空间中的行为克隆(Behavior Cloning)。
模型学习“语义 → 视觉变化”的对应关系,而无需处理具体的逆运动学或动力学细节。
5.3 动作微调(Action Finetuning)
当模型已经理解任务语义后,只需教它如何驱动具体机器人。
- 做法:
- 加载预训练好的 VLM
- 移除预测 $z_t$ 的 head
- 替换为预测真实机器人动作 $a_t$ 的 head
- 数据规模:仅需极少量带动作标签的机器人数据(实验中约 1k 条轨迹)
- 为何有效:
实验表明,潜在动作 $z_t$ 在表示空间中与真实物理动作 $a_t$ 高度聚类,说明预训练阶段已学到强动作先验,微调本质上是一个低复杂度映射。
六、训练范式与数据(Training & Data)
- 数据多样性:
- 仿真:Language Table(181k 轨迹)
- 真实机器人:BridgeV2、Open X-Embodiment(970k 轨迹,预训练时丢弃动作标签)
- 人类视频:Something-Something v2(200k 人类操作视频)
- 预训练效率:
- LAPA:272 H100-hours
- OpenVLA:21,500 A100-hours
- 约 30× 的效率提升,且无需动作标签
- 训练策略:
- 预训练阶段冻结视觉编码器,仅训练语言模型部分
- 微调阶段解冻部分参数以适配具体机器人的动作分布
七、实验结果(Experiments)
1. 超越有监督 SOTA(Outperforming OpenVLA)
在真实世界 Franka 机械臂任务中:
- LAPA(无动作标签预训练):50.1% 成功率
- OpenVLA(97 万条带标签数据):43.9% 成功率
解读:
直接回归精确关节动作易过拟合,而潜在动作提供了更鲁棒的正则化。
2. 强大的泛化能力
- Unseen Objects:在未见物体上优势显著
- Cross-Environment:在 Language Table 跨环境迁移任务中显著优于基于 IDM 伪标签的 VPT
3. 从人类视频学习(Learning from Human Videos)
仅在 Something-Something v2(人类视频) 上预训练,再在机器人上微调:
- LAPA:34.0% 成功率
- OpenVLA(BridgeV2 同构机器人数据):30.8%
结论:
潜在动作空间成功弥合了 Human–Robot 之间的 Embodiment Gap。
八、核心洞察(Key Insights)
- 动作抽象优于动作本身
预训练阶段学习“意图与视觉结果”比学习具体关节控制更重要。 - 量化是跨模态桥梁
VQ-VAE 将动作预测转化为离散 token 预测,使 VLA 模型继承 LLM 的序列建模与推理能力。 - Human-to-Robot 新路径
语义/潜在空间对齐后,底层控制可通过少量数据快速适配,无需复杂重定向。
九、局限性与未来方向(Limitations & Future Work)
- 精细动作信息损失:潜在动作离散化带来粒度权衡
- 对视觉变化的依赖:微小或力控相关动作难以捕捉
- 两阶段训练复杂性:需维护量化模型与策略模型
未来方向:
探索分层控制(Hierarchical Control),由 LAPA 负责高层潜在动作规划,低层控制器负责精细动作执行。
十、总结(Conclusion)
LAPA 挑战了机器人领域“必须依赖大量带标签数据”的传统范式。
通过构建合理的潜在动作空间,它展示了从互联网视频中学习机器人策略的可行路径。
核心启示:
通往通用机器人大脑的捷径,或许不是采集更多机器人数据,而是学会如何真正“看懂”人类的视频。

浙公网安备 33010602011771号