2022年2月18日

摘要: 郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! AAAI 2016 Abstract 众所周知,流行的Q学习算法会在某些条件下高估动作价值。以前不知道在实践中这种高估是否普遍,它们是否会损害性能,以及它们是否通常可以避免。在本文中,我们肯定地回答了所有这些问题。特别是,我们首先表明,最 阅读全文
posted @ 2022-02-18 15:20 穷酸秀才大草包 阅读(634) 评论(0) 推荐(0)

导航