Masked Visual-Tactile Pre-training for Robot Manipulation
- 来源:NESC大组会上别的同学的工作
- 作者:刘庆涛,叶琦
- 主要内容:针对机械臂操作训练难的问题,提出基于人类演示的预训练表征范式,并基于此encoder使用PPO训练下游任务。注意这篇文章的主要工作聚焦使用人类手拿捏物体的视觉和触觉演示,通过encoder-decoder架构训练学习特征提取和对齐,然后将encoder部分称为预训练的encoder,这里预训练的目的是减少主网络的负担。后面在下游任务仿真环境中,使用PPO算法训练
- 这篇工作通篇都是在人类演示和仿真环境下,所以并没有涉及控制真正的机械臂......(读了半天才搞清楚算法的每一个部分的场景,不过在虚拟平台上训练好的算法应该也可以迁移到真正的机械臂上)
- 实验部分这篇文章还对比了有无特征融合预训练encoder的影响
- 我一开始对这篇工作有两个误解:1)RL训练部分误以为是在正在的机械臂上进行,但PPO作为on-policy的算法必然是在虚拟平台上训练——考虑到sample efficiency。2)误将这里的预训练认为和decision-pretrained transformer类似,实际上这里只是预训练了一个特征表征的encoder,不涉及主策略网络的训练。
- 另:1)没想到mujoco平台里面居然有这么丰富的任务,还有机械手拿瓶子。2)仿真平台似乎也可以提供压力传感数据
- 一开始对现实机械臂如何用RL训练很疑惑,后来看来这篇文章腿足机器人之十三-强化学习PPO算法的代码才明白了流程,之前有点纸上谈兵了(笑

posted @
2025-03-17 20:52
霜尘FrostDust
阅读(
85)
评论()
收藏
举报