Model-Free Episodic Control
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! CoRR, (2016) Abstract 最先进的深度强化学习算法需要数百万次交互才能达到人类水平的性能。另一方面,人类在首次发现时就可以非常迅速地利用环境中高度有益的细微差别。在大脑中,这种快速学习被认为取决于海马体及其对回合式记忆的
阅读全文
posted @ 2020-09-13 17:04
上海交通大学CS博士生
posted @ 2020-09-13 17:04
posted @ 2020-08-31 20:12