强化学习算法中的梯度和更新公式在代码的哪里体现？

这些一般在算法的更新函数中体现，即训练--优化中体现。
一般以损失的形式表现，然后调用loss.backward()函数进行优化。

如果公式中有期望那么就需要mean函数

最近看这个问题快炸了，到底要如何根据自己的更新公式判断写的代码对不对啊----

反向传播的损失计算方式，还是得去补最优化的知识。

posted @ 2024-01-04 22:07 芋圆院长阅读(42) 评论(0) 收藏举报

刷新页面返回顶部

芋圆院长