摘要: Alchemy: A structured task distribution for meta-reinforcement learning 把元学习当作一种提升强化学习的灵活性和样本利用率已经逐渐得到越来越多的关注。然而,这个领域研究的一个问题是缺乏一个足够好的benchmark任务。总体来说,之前的benchmark的结构要么太简单,不具有内在的趣味性,要么定义不当,不支持原则性分析。在这个工作中,我们介绍了元强化学习的一个新的benchmark,它结合了结构丰富度和结构透明度。Alchemy是一款3D视频游戏,在Unity中实现,涉及到一个潜在的因果结构,该结构在一个episode到另一个episode的过程中重新取样,提供结构学习、在线推理、假设检验和基于抽象领域知识的动作排序。我们在Alchemy上评估了一堆强大的智能体,并对其中一个做了深度分析。结果清楚地表明了元学习的失败,为Alchemy作为一个元强化学习的有挑战性的benchmark提供了验证。和这份报告一起,我们开源了Alchemy,以及一套分析工具和示例智能体轨迹。 阅读全文
posted @ 2021-08-26 21:10 tianyma的技术博客 阅读(97) 评论(0) 推荐(0) 编辑