人形机器人 —— 利用机器人的目标运动轨迹结合强化学习算法实现机器人的步态控制

真实数据的收集（模仿学习+强化学习）：

这里的真实人类步态数据收集后用作模仿学习，具体实现细节可以是用真实人类行为的数据生成人形机器人的目标行动轨迹，然后利用目标行动轨迹和机器人的实际行为规矩计算出reward值。

具体的强化学习算法：