摘要: 书接上回,上面介绍了RL最基础的策略梯度,但没有理解计算出来的梯度 $\nabla J(\theta) =\mathbb{E}{\tau \sim \pi_\theta} \nabla log, P(\tau|\pi)R_\tau $ 是什么含义,现在具体的介绍一下。 还是分为了两部分,\(\nab 阅读全文
posted @ 2025-09-05 17:43 亦可九天揽月 阅读(20) 评论(0) 推荐(0)