摘要: 目录reference背景:普通策略梯度 (PG) 方法的“致命缺陷”TRPO 的核心思想:如何求解?—— 近似与共轭梯度实际算法:共轭梯度法 (Conjugate Gradient)TRPO 的完整更新步骤:代码实现(概念解读)总结与展望代码走读计算普通策略梯度 g费雪-向量乘积 (FVP) Hv 阅读全文
posted @ 2025-07-16 19:57 jack-chen666 阅读(67) 评论(0) 推荐(0)
摘要: 目录参考内容优势估计的“两难困境”GAE 的核心思想与公式GAE 的代码实现总结 参考 https://g.co/gemini/share/e45888162cfb https://newfacade.github.io/notes-on-reinforcement-learning/13-gae. 阅读全文
posted @ 2025-07-16 17:35 jack-chen666 阅读(207) 评论(0) 推荐(0)