强化学习系统性学习笔记(二):策略优化的理论基础与算法实现
摘要:
策略优化的理论基础与算法实现 3.2 REINFORCE: 最早的策略梯度算法 在完成策略梯度定理的推导后,我们获得了梯度的理论形式: \[\nabla_\theta J(\pi_\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^ 阅读全文
posted @ 2025-10-07 11:54 GRITJW 阅读(160) 评论(0) 推荐(1)
浙公网安备 33010602011771号