强化学习算法如何控制人形机器人行走的 —— 策略映射动作，动作如何控制电机？

实例：基于actor-critic强化学习的机器人控制框架。强化学习策略π基于机器人当前状态和参考运动状态，计算出一个动作增量δa，加参考关节角度â得到最终的目标关节角度a。最后，低层PD控制器使用这些目标关节角度来驱动机器人，从而实现对参考运动的跟踪和鲁棒的行走。