强化学习算法中的梯度和更新公式在代码的哪里体现?
这些一般在算法的更新函数中体现,即训练--优化中体现。
一般以损失的形式表现,然后调用loss.backward()函数进行优化。
- 计算损失
- 反向传播
- 梯度下降 调用优化器的step函数实现。
如果公式中有期望那么就需要mean函数
最近看这个问题快炸了,到底要如何根据自己的更新公式判断写的代码对不对啊----
反向传播的损失计算方式,还是得去补最优化的知识。
这些一般在算法的更新函数中体现,即训练--优化中体现。
一般以损失的形式表现,然后调用loss.backward()函数进行优化。
如果公式中有期望那么就需要mean函数
最近看这个问题快炸了,到底要如何根据自己的更新公式判断写的代码对不对啊----
反向传播的损失计算方式,还是得去补最优化的知识。