摘要:
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! AAAI 2016 Abstract 众所周知,流行的Q学习算法会在某些条件下高估动作价值。以前不知道在实践中这种高估是否普遍,它们是否会损害性能,以及它们是否通常可以避免。在本文中,我们肯定地回答了所有这些问题。特别是,我们首先表明,最 阅读全文
posted @ 2022-02-18 15:20
穷酸秀才大草包
阅读(634)
评论(0)
推荐(0)

浙公网安备 33010602011771号