摘要: Alchemy: A structured task distribution for meta-reinforcement learning 把元学习当作一种提升强化学习的灵活性和样本利用率已经逐渐得到越来越多的关注。然而,这个领域研究的一个问题是缺乏一个足够好的benchmark任务。总体来说,之前的benchmark的结构要么太简单,不具有内在的趣味性,要么定义不当,不支持原则性分析。在这个工作中,我们介绍了元强化学习的一个新的benchmark,它结合了结构丰富度和结构透明度。Alchemy是一款3D视频游戏,在Unity中实现,涉及到一个潜在的因果结构,该结构在一个episode到另一个episode的过程中重新取样,提供结构学习、在线推理、假设检验和基于抽象领域知识的动作排序。我们在Alchemy上评估了一堆强大的智能体,并对其中一个做了深度分析。结果清楚地表明了元学习的失败,为Alchemy作为一个元强化学习的有挑战性的benchmark提供了验证。和这份报告一起,我们开源了Alchemy,以及一套分析工具和示例智能体轨迹。 阅读全文
posted @ 2021-08-26 21:10 tianyma的技术博客 阅读(97) 评论(0) 推荐(0) 编辑
摘要: Generally capable agents emerge from open-ended play Abstract 人工智能体在具有挑战性的模拟环境中已经取得了巨大的成功,不仅可以掌握训练的特定任务,其行为甚至可以推广到训练中从未遇到的地图和对手。在这项工作中,我们的智能体可以很好地完成除了单个任务之外的任务,并表现出更强的泛化能力,以应对更加巨大丰富的挑战空间。该环境原生支持多智能体,涵盖竞争 阅读全文
posted @ 2021-08-23 18:18 tianyma的技术博客 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 文章简介 这是一篇关于元强化学习和多任务学习benchmark的文章,发表在PMLR 2020(Proceedings of Machine Learning Research)上。针对于目前元强化学习算法通常只能在简单的benchmark上测试,如在2d navigation的任务中,设置目标点坐 阅读全文
posted @ 2021-07-23 10:45 tianyma的技术博客 阅读(822) 评论(0) 推荐(0) 编辑
摘要: Challenges of meta-RL design a set of tasks that are interrelated find the inter-representation fast adaptation to new tasks Papers environment Meta-W 阅读全文
posted @ 2021-07-17 22:42 tianyma的技术博客 阅读(413) 评论(0) 推荐(0) 编辑