摘要:
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 从强化学习的早期开始,TD学习就一直是为动作分配信度的主要方法,它一步一步地向后传播信度。当动作和奖励之间的延迟很长,并且当干预的不相关事件导致长期回报的方差时,这种方法会受到影响。我们提出了状态联想(SA)学习,其中智 阅读全文
posted @ 2021-06-18 16:34
穷酸秀才大草包
阅读(148)
评论(0)
推荐(0)

浙公网安备 33010602011771号