2025 年 9月 3 日随笔档案 - 霜尘FrostDust

2025年9月3日

摘要： What can rl bring to vla generalization? an empirical study. arxiv 在vla模型的最后一层外接MLP来得到Q-value，从而可以使用PPO等强化学习算法进行微调 PPO表现优于DPO、GRPO等 RL微调vla使其泛化性提高 Sho 阅读全文

posted @ 2025-09-03 21:52 霜尘FrostDust 阅读(29) 评论(0) 推荐(0)

FrostDust

公告