人形机器人 —— 利用机器人的目标运动轨迹结合强化学习算法实现机器人的步态控制
真实数据的收集(模仿学习+强化学习):
这里的真实人类步态数据收集后用作模仿学习,具体实现细节可以是用真实人类行为的数据生成人形机器人的目标行动轨迹,然后利用目标行动轨迹和机器人的实际行为规矩计算出reward值。
具体的强化学习算法:
PPO算法




本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址,还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏未加标注处,如有侵权请与博主联系。
如果未特殊标注则为原创,遵循 CC 4.0 BY-SA 版权协议。
posted on 2024-04-10 13:20 Angry_Panda 阅读(558) 评论(0) 收藏 举报
浙公网安备 33010602011771号