摘要: 【强化学习笔记】从数学推导到电机控制:深入理解 Policy Gradient 与 Sim-to-Real 前言: 最近在研究基于 legged_gym 的四足机器人控制。在啃代码和论文的过程中,Policy Gradient(策略梯度)是一个绕不开的核心概念。 面对一堆 \(\nabla\) 和 阅读全文
posted @ 2025-12-18 10:23 徐桑 阅读(44) 评论(0) 推荐(1)