摘要:
在奖励折扣率为1的情况下,既没有折扣的情况下,reinforce算法理论上可以写为: 但是在有折扣的情况下,reinforce算法理论上可以写为: 以上均为理论模型。 根据上面的理论上的算法模型,或者说是伪代码,你是难以使用这个算法的。这个reinforce算法也是十分古怪和气人的,之所以这样说是因 阅读全文
posted @ 2020-12-24 22:35
Angry_Panda
阅读(3621)
评论(1)
推荐(0)
浙公网安备 33010602011771号