摘要: 一、所有 Actor-Critic 算法都需要对\(\log\pi_\theta(a|s)\)求导 1. 策略梯度定理的统一形式 所有策略梯度算法的核心公式均基于策略梯度定理: \(\nabla_\theta J(\pi_\theta) \approx \mathbb{E}_{s\sim\rho^\ 阅读全文
posted @ 2025-06-25 15:10 有何m不可 阅读(58) 评论(0) 推荐(0)