随笔档案「2025年10月7日」：强化学习系统性学习笔记（二）：策略优化的理论基础与算法实现 ... - GlenTt

2025年10月7日 #

强化学习系统性学习笔记（二）：策略优化的理论基础与算法实现

摘要：策略优化的理论基础与算法实现 3.2 REINFORCE: 最早的策略梯度算法在完成策略梯度定理的推导后,我们获得了梯度的理论形式: \[\nabla_\theta J(\pi_\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^ 阅读全文

posted @ 2025-10-07 11:54 GlenTt 阅读(211) 评论(0) 推荐(1)

GlenTt

导航

公告

强化学习系统性学习笔记（二）：策略优化的理论基础与算法实现