2020年11月14日

摘要: 郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ABSTRACT SAC是用于连续动作设置的最先进的RL算法,不适用于离散动作设置。但是,许多重要的设置都涉及离散动作,因此,在这里我们导出了适用于离散动作设置的SAC算法的替代版本。然后,我们证明了,即使没有任何超参数调整,它在Atar 阅读全文
posted @ 2020-11-14 15:31 穷酸秀才大草包 阅读(1681) 评论(0) 推荐(0)

导航