使用强化学习训练足式机器人时是否需要根据真实环境数据建立仿真环境

一直在学习强化学习算法,但是一直也没有真实的机器人环境可以操作,因此只是停留于纸面意义的理论学习,但是突然看到这么一个说法:

来自: https://weibo.com/1255595687/O5k4Aj8l2

Real2Sim2Real闭环,从Real2Sim到Sim2Real,打通数据到数据的自动闭环,不管是采集物理世界数据生成仿真模型,还是把仿真后的策略部署到硬件上,从数据的生成、迁移到部署,逐际动力的目标是实现全过程自动化,最大限度降低人工干预,缩小仿真和现实之间的差距,提高训练的效率和质量。


一般使用强化学习算法训练机器人时都是使用比较理想化的仿真环境,仿真模型的最终建立往往会根据最终的机器人硬件设计后反向确定(也就是使用最终定型的机器人物理结构来确定仿真环境下机器人的具体3D模型的参数),虽然最终机器人物理结构的定型需要和真实环境、仿真环境不断的训练、测试进行迭代,但是最终都是从真实环境下最终定型的机器人物理结构来建立最终的仿真环境下的机器人3D建模参数;但是,从上面的论述中我们可以看到这样的一个事情,那就是如果可以建立起真实物理环境下的仿真模型那么在进行强化学习算法训练时可以获得更好的性能表现,不过这也留下了一个难题,那就是如何建立与真实环境相近的仿真环境呢。


建立起与仿真环境相近的仿真模型需要有较好的3D建模能力,而在实际工作中往往3D建模的一组和算法的一组以及物理机械结构设计的一组都不在一起办公,因此看似一个对提升性能极为有益的一个操作其实对于很多刚刚进入到这个领域的起步公司都不是很能实现的,如果没有一个能力较强的组织协调的人来负责工作任务的调度那么这个事情最后的结局很可能是相互推诿然后耗费大量时间。



posted on 2024-03-31 17:32  Angry_Panda  阅读(14)  评论(0编辑  收藏  举报

导航