摘要: What can rl bring to vla generalization? an empirical study. arxiv 在vla模型的最后一层外接MLP来得到Q-value,从而可以使用PPO等强化学习算法进行微调 PPO表现优于DPO、GRPO等 RL微调vla使其泛化性提高 Sho 阅读全文
posted @ 2025-09-03 21:52 霜尘FrostDust 阅读(21) 评论(0) 推荐(0)