摘要:        
目录reference背景:普通策略梯度 (PG) 方法的“致命缺陷”TRPO 的核心思想:如何求解?—— 近似与共轭梯度实际算法:共轭梯度法 (Conjugate Gradient)TRPO 的完整更新步骤:代码实现(概念解读)总结与展望代码走读计算普通策略梯度 g费雪-向量乘积 (FVP) Hv    阅读全文
posted @ 2025-07-16 19:57
jack-chen666
阅读(67)
评论(0)
推荐(0)
        
            
        
        
摘要:        
目录参考内容优势估计的“两难困境”GAE 的核心思想与公式GAE 的代码实现总结 参考 https://g.co/gemini/share/e45888162cfb https://newfacade.github.io/notes-on-reinforcement-learning/13-gae.    阅读全文
posted @ 2025-07-16 17:35
jack-chen666
阅读(207)
评论(0)
推荐(0)
        

 浙公网安备 33010602011771号
浙公网安备 33010602011771号