摘要:
背景就不介绍了,REINFORCE算法和AC算法是强化学习中基于策略这类的基础算法,这两个算法的算法描述(伪代码)参见Sutton的reinforcement introduction(2nd)。 AC算法可以看做是在REINFORCE算法基础上扩展的,所以这里我们主要讨论REINFORCE算法中算 阅读全文
posted @ 2022-02-13 14:26
Angry_Panda
阅读(503)
评论(1)
推荐(0)
浙公网安备 33010602011771号