2025 年 6月 25 日随笔档案 - 有何m不可

2025年6月25日

摘要：一、所有 Actor-Critic 算法都需要对\(\log\pi_\theta(a|s)\)求导 1. 策略梯度定理的统一形式所有策略梯度算法的核心公式均基于策略梯度定理： \(\nabla_\theta J(\pi_\theta) \approx \mathbb{E}_{s\sim\rho^\ 阅读全文

posted @ 2025-06-25 15:10 有何m不可阅读(92) 评论(0) 推荐(0)

gongzb

公告