摘要:
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! NIPS 2016 Abstract 有效的探索仍然是强化学习(RL)的主要挑战。常见的探索抖动策略,如ε-贪婪,不进行时间扩展(或深度)探索;这可能导致数据需求呈指数级增长。然而,在复杂的环境中,大多数用于统计有效RL的算法在计算上是不 阅读全文
posted @ 2023-09-25 11:38
穷酸秀才大草包
阅读(506)
评论(0)
推荐(0)

浙公网安备 33010602011771号