What can rl bring to vla generalization? an empirical study.
- arxiv
- 在vla模型的最后一层外接MLP来得到Q-value,从而可以使用PPO等强化学习算法进行微调
- PPO表现优于DPO、GRPO等
- RL微调vla使其泛化性提高
Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation
- CoRL2025
- [https://arxiv.org/2508.06426](https://arxiv.org/2508.06426]
- pre 视频
- 探索VLA模型泛化性差的原因:
- 任务无关因子(背景等)影响policy决定,影响了因果相关性
- 训练数据集的diversity(视角和指令)diversity严重不足
- 子任务之间关联性差
- 利用LIBERO数据集的regenerate功能来更改环境setting,从而提升多样性
- 构建真实场景数据集
- 改变view point;训练时增加数据集相似性(针对同一物体的抓取任务)
- 在现有数据集上进行改动(因为重新收集数据集成本太大)
- 增加指令多样性的作用大于增加视角多样性的提升
- 移动机器人viewpoint固定,只需考虑增加instruction diversity
- 如果输入了机器人本体state,可能导致policy只依靠本身state而轻视视觉
Denoising Diffusion Implicit Models
FiLM: Visual Reasoning with a General Conditioning Layer
- AAAI 2018
- 特征级线性调制,允许一种信息(如文本指令)去动态地影响和调整另一种信息(如正在被处理的图像特征)。Film不是简单地把文本和图像信息拼接在一起,而是用文本信息生成一组“缩放”和“平移”参数,去精细地、动态地“操控”图像信息在神经网络中的处理过程。
- OpenVLA-oft中应用这种技术使得整个视觉系统在一开始就变得“任务导向”
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- RSS 2023
- Training:learn to predict the noise added to real action samples.
- Inference: start with random noise and conduct gradual denoising process
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
- RSS 2025
- OpenVLA-OFT
- key design:
- parallel decoding (and action chunking)
- continus action
- L1 regression learning objective
- Film (only for Aloha)
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
- ACT
- 使用模仿学习解决具身智能
- 采用action chunking,推理频率显著上升
OpenVLA: An Open-Source Vision-Language-Action Model
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
OpenHelix: A Short Survey and Empirical Analysis and Open-Source Dual-System VLA Model for Robotic Manipulation.
- dual system 双系统,引入一个中间laten token链接VLM和policy。这种异步机制可增强协调,缓解延迟。
- 持续更新快慢系统
- 项目地址
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning
- 机器人测试benchmark,基于mujoco和rosuite
- 文档
Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
- arxiv
- RoboVLMs
- 结论
- continuous action matters:离散action在long-horizon task中累积误差严重影响表现
- history obs matters: 历史obs越长,性能表现越好,但也会增加计算开销
- 在历史信息的利用方式上:policy head(roboflamingo)比interleaved方法更有效(Gato).作者认为是policy head在保留了VLM的原始vl融合能力同时有效融合了历史信息。另外interleaved方法会导致更高内存和算力需求。
- ....发现这个论文好多错误?具体参考这个Issue
- CORL2024
- VLM提取latent信息,服务于action head
- action head还直接接受经Film、cros attention with(VLM输出的latent info)加持的VIT处理视觉输入,另外经latent action 固定为at=MLP(MAP[X_tk,X^v_:t])
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
- NVIDIA
- 快慢系统:VLM+diffusion transformer
- action head 利用中间第12层latent info
Flow matching for generative modeling.
- GROOT用到的action 生成方法
- 属于diffusion 范畴,有点看不懂...
posted @
2025-09-03 21:52
霜尘FrostDust
阅读(
21)
评论()
收藏
举报