强化学习算法如何控制人形机器人行走的 —— 策略映射动作,动作如何控制电机?

实例:基于actor-critic强化学习的机器人控制框架。强化学习策略π基于机器人当前状态和参考运动状态,计算出一个动作增量δa,加参考关节角度â得到最终的目标关节角度a。最后,低层PD控制器使用这些目标关节角度来驱动机器人,从而实现对参考运动的跟踪和鲁棒的行走。


源自:

https://zhuanlan.zhihu.com/p/1921923640007594397


posted on 2025-09-23 08:59  Angry_Panda  阅读(43)  评论(0)    收藏  举报

导航