Agent57: Outperforming the Atari Human Benchmark

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

ICML, pp.507-517, (2020)

Abstract

　　在过去的十年中，Atari游戏一直是RL社区的长期基准。此基准被提出以测试RL算法的通用能力。先前的工作在该系列的许多游戏中表现出色，但在一些最具挑战性的游戏中却表现很差，因此取得了良好的平均性能。我们提出使用Agent57，这是第一个在所有57种Atari游戏中都优于标准人为基准的深度RL智能体。为了达到这个结果，我们训练了一个神经网络，该网络对一系列策略进行参数化，范围从非常探索到纯粹开发。我们提出一种自适应机制，以选择在整个训练过程中优先考虑的策略。此外，我们利用了结构的新颖参数化，可以实现更一致且更稳定的学习。

1. Introduction

　　Arcade学习环境(ALE; Bellemare et al., 2013)被提出以作为经验评估智能体的平台，旨在为各种游戏的通用能力进行设计。ALE为各种Atari 2600游戏环境提供了一个界面，这些环境旨在吸引人类玩家，并为其带来挑战。如Bellemare et al. (2013)指出，Atari 2600游戏非常适合用于评估AI智能体的通用能力，这有以下三个主要原因：(i) 足够多，足以声称具有普遍性，(ii) 每个都足够有趣，足以代表实践中可能遇到的设置，以及(iii) 每个游戏都是由独立方创建的，不受实验者的偏见。

　　在不使用游戏特定信息的情况下，期望智能体在尽可能多的游戏中表现良好，对当前领域做出最少的假设。深度Q网络(DQN; Mnih et al., 2015)是第一个在人类Atari 2600游戏中实现人类水平控制的算法，以人类归一化分数(HNS)衡量。随后，尽管人类基准得分可能相对于可能的能力低估了人类的表现，但使用HNS评估Atari游戏的性能已成为深度RL中使用最广泛的基准之一(Toromanoff et al., 2019)。尽管如此，人类基准性能仍然是57款Atari游戏中"合理性能"的预言。尽管付出了所有努力，但没有一个RL算法能够在一组超参数下的所有57个Atari游戏中实现100％以上的HNS。实际上，基于模型的RL, MuZero (Schrittwieser et al., 2019)和无模型RL, R2D2 (Kapturowski et al., 2018)的最新算法分别在51和52个游戏中超过了100％的HNS。虽然这些算法在很大一部分游戏中都达到了高于平均人类水平的性能(例如，实现了1000％以上的HNS)，但在那些没做到的游戏中，他们往往完全无法学习。这些游戏展示了通用RL算法应该能够解决的特别重要的问题。首先，长期信度分配：对于随后出现的积极(或消极)结果，哪些决定最值得信任？当奖励被延迟并且需要在较长的动作序列上分配信度时(例如在Skiing或Solaris游戏中)，此问题尤其困难。Skiing游戏因其独特的奖励结构而成为典型。游戏的目标是尽可能快地下坡穿过所有门。对于每个错过的门，将给予五秒钟的惩罚。仅在最后给出的奖励与经过的时间成正比。因此，需要长期的信度分配，以了解为什么游戏早期采取的动作(例如错过门)会对获得的奖励产生负面影响。其次，探索：有效的探索对于有效学习RL至关重要。像Private Eye, Montezuma's Revenge, Pitfall!或Venture这些游戏被广泛认为是难探索游戏(Bellemare et a., 2016; Ostrovski et al., 2017)，因为在看到第一个正奖励之前可能需要采取数百个动作。为了获得成功，尽管显然不可能找到正奖励，但智能体仍需要继续探索环境。在需要函数近似的大型高维状态空间中，这些问题尤其具有挑战性。

　　深度RL中的探索算法通常分为三类：随机价值函数(Osband et al., 2016; Fortunato et al., 2017; Salimans et al., 2017; Plappert et al., 2017; Osband et al., 2018)，无监督策略学习(Gregor et al., 2016; Achiam et al., 2018; Eysenbach et al., 2018)和内在动机(Schmidhuber, 1991; Oudeyer et al., 2007; Barto, 2013; Bellemare et al., 2016; Ostrovski et al., 2017; Fu et al., 2017; Tang et al., 2017; Burda et al., 2018; Choi et al., 2018; Savinov et al., 2018; Puigdomènech Badia et al., 2020)。其他工作结合了手工制作的特征，特定领域的知识或特权的预训练来规避探索问题，有时仅对一些Atari游戏进行评估(Aytar et al., 2018; Ecoffet et al., 2019)。尽管取得了令人鼓舞的结果，但没有一种算法能够在不依赖人类示范的情况下显著提高具有挑战性的游戏的性能而不降低其余游戏的性能(Pohlen et al., 2018)。值得注意的是，在所有这些工作中，内在动力，尤其是Never Give Up (NGU；Puigdomènech Badia et al., 2020)已显示出在改进难探索游戏性能方面的重大前景。NGU通过使用内部生成的内在奖励来增强奖励信号，该内在奖励在两个级别上对新颖性敏感：一个回合内的短期新颖性和跨回合的长期新颖性。然后，它学习了一系列用于探索和利用的策略(共享相同的参数)，最终目的是在利用策略下获得最高分。但是，NGU并不是最通用的智能体：就像R2D2和MuZero在几乎所有游戏上都能表现出色，因此NGU也会苦于它在更小且不同的游戏集(与MuZero和R2D2等智能体相比)上表现出色(尽管基于R2D2)。例如，在游戏Surround中，R2D2达到了最优分数，而NGU的执行类似于随机策略。NGU的一个缺点是，无论其对学习进度的贡献如何，NGU都会遵循其每项策略收集相同数量的经验。一些游戏与其他游戏需要不同程度的探索。直观地讲，人们希望分配共享资源(网络容量和数据收集)，以使最终性能最大化。我们提出允许NGU在智能体的整个生命周期内调整其探索策略，以使其能够针对正在学习的特定游戏进行专业化。这是我们对NGU进行的第一个重大改进，以使其成为更通用的智能体。

　　近期关于长期信度分配的工作大致可分为两种：确保梯度正确分配信度(Ke et al., 2017; Weber et al., 2019; Ferret et al., 2019; Fortunato et al., 2019)并使用价值或目标来确保分配正确的信度(Arjona Medina et al., 2019; Hung et al., 2019; Liu et al., 2019; Harutyunyan et al., 2019)。NGU也无法解决长期信度分配问题，例如Skiing或Solaris，无法达到100％HNS。RL中的信度分配的进步通常涉及两种方法的混合，因为价值和奖励形成了损失，而通过模型的梯度流指导学习。

　　在这项工作中，我们提出通过改进整体训练稳定性，动态调整折扣因子并通过时间窗口增加反向支持来解决长期信度分配问题。与先前工作中提出的方法相比，这些变化相对简单，但我们发现它们是有效的。最近的许多工作都探讨了如何动态调整深度RL智能体的超参数的问题，例如，基于进化的方法(Jaderberg et al., 2017)，梯度(Xu et al. 2018)或多臂赌博机(Schaul et al., 2019)。受Schaul et al. (2019)启发，我们提出使用简单的非平稳多臂赌博机(Garivier ＆ Moulines, 2008)直接控制探索率和折现因子以最大化回合奖励，然后将此信息提供给智能体的价值网络作为输入。与Schaul et al. (2019)不同，1) 它控制探索率和折扣因子(帮助长期信度分配)，2) 臂控制一系列状态-动作价值函数，这些函数支持探索和更长的折扣，而不是通过固定函数形式线性倾斜一个公共价值函数。

　　总而言之，我们的贡献如下：

状态-动作价值函数的新参数化可分解内在和外在奖励的贡献。作为结果，我们在很大范围的内在奖励尺度上显著提高了训练的稳定性。
元控制器：一种自适应机制，用于选择在整个训练过程中优先考虑哪些策略(由探索率和折扣因子确定参数)。这允许智能体通过将更多资源专用于一个或另一个来控制探索/开发权衡。
最后，我们首次展示了在所有Atari 57游戏中都超过了人类基准的性能。作为这些实验的一部分，我们还发现，只需通过时间窗口将反向传播调整为先前发布的R2D2窗口的两倍，就可以实现长期的优先信度分配(例如，在Solaris中)，同时仍保持或改进了其余的游戏。

　　NGU的这些改进共同将其转变为最通用的Atari 57智能体，从而使其在所有Atari 57游戏中均能跑赢人类基准。因此，我们将此智能体称为：Agent57。

2. Background: Never Give Up (NGU)

3. Improvements to NGU

3.1. State-Action Value Function Parameterization

3.2. Adaptive Exploration over a Family of Policies

　　NGU的核心思想是使用单个网络结构共同训练一系列具有不同程度的探索行为的策略。通过这种方式，训练这些探索性策略起着一系列辅助任务的作用，即使在没有外部奖励的情况下，这些辅助任务也可以帮助训练共享结构。这种方法的主要局限性在于，无论其对学习进度的贡献如何，所有策略均受到同等训练。我们提出整合一个元控制器，该元控制器可以自适应地选择在训练和评估时都使用哪些策略。这带来了两个重要的后果。首先，通过选择在训练期间优先考虑哪些策略，我们可以分配更多的网络容量，以更好地表示与手头任务最相关的策略的状态-动作价值函数。请注意，这很可能会在整个训练过程中发生变化，自然会建立课程表以促进训练。如第二节所述，策略由成对的探索率和折扣因子(β_j, γ_j)表示，它们确定折扣累积奖励最大化。很自然地期望β_j值越高和γ_j值越低的策略会在训练的早期阶段取得更多的进步，而随着训练的进行，情况会相反。其次，该机制还提供了一种自然的方式，可以选择族中最优的策略以在评估时使用。考虑γ_j的宽范围值(βj ≈ 0)，提供了一种基于每个任务自动调整折扣因子的方法。这显著增加了该方法的通用性。

　　我们提出使用在每个执行者上独立运行的非平稳多臂赌博机算法来实现元控制器。与全局元控制器相反，这种选择的原因是每个执行者都遵循不同的ε_l-贪心策略，这可能会改变最优臂的选择。N臂赌博机中的每个臂 j 与该族中的一个策略链接，并且对应于一对(β_j, γ_j)。在每个回合的开头(例如，第k个回合)，元控制器选择将执行策略的臂J_k设置。由于臂J_k是随机变量，因此我们使用大写字母。然后，第 l 个执行者对于整个回合，相对于相应的状态-动作价值函数Q(x, a, J_k; θ_l)执行ε_l-贪婪动作。指出的未打折的外部回合奖励被用作奖励信号，以训练元控制器的多臂赌博机算法。

　　奖励信号是不稳定的，因为智能体在整个训练过程中都在变化。因此，经典的赌博机算法，例如可信度上限(UCB; Garivier＆Moulines, 2008)，将无法适应奖励随着时间的变化。因此，我们使用带有ε_UCB-贪婪探索的简化滑动窗口UCB。在概率为1 - ε_UCB的情况下，该算法在大小为τ的滑动窗口上对经典UCB进行了少许修改，并选择了概率为ε_UCB的随机臂(算法的详细信息在附录D中提供)。

　　请注意，即使没有内在的奖励，也可以应用通过训练和评估来调整折扣因子的好处。为了说明这一点，我们提出使用元控制器来扩展R2D2的变体。为了分离此更改的影响，我们评估了R2D2的变体，该变体使用与Agent57相同的RL损失。即，与原始论文中的变换后的n步损失相比，此为变换后的Retrace损失。在本文中，我们将此变体称为R2D2 (Retrace)。在所有其他方面，R2D2 (Retrace)与R2D2完全相同。我们结合了由到R2D2 (Retrace)参数化的几个策略的联合训练。我们将此算法称为R2D2 (bandit)。

4. Experiments

4.1. Summary of the Results

4.2. State-Action Value Function Parameterization

4.3. Backprop Through Time Window Size

4.4. Adaptive Exploration

5. Conclusions

A. Background on MDP

B. Extrinsic-Intrinsic Decomposition

C. Retrace and Transformed Retrace

C.1. Extrinsic-Intrinsic Decomposition for Retrace and Transformed Retrace

C.2. Retrace and Transformed Retrace Losses for Neural Nets

D. Multi-arm Bandit Formalism

E. Implementation details of the distributed setting

Replay buffer:

Actors:

Evaluator:

Learner:

Computation used:

F. Network Architectures

G. Hyperparameters

G.1. Values of β and γ

G.2. Atari pre-processing hyperparameters

G.3. Hyperparameters Used

G.4. Hyperparameters Search Range

H. Experimental Results

H.1. Atari 10: Table of Scores for the Ablations

H.2. Backprop window length comparison

H.3. Identity versus h-transform mixes comparison

H.4. Atari 57 Table of Scores

H.5. Atari 57 Learning Curves

H.6. Videos

posted on 2021-01-31 15:02 穷酸秀才大草包阅读(915) 评论(0) 收藏举报

刷新页面返回顶部

穷酸秀才大艹包

Agent57: Outperforming the Atari Human Benchmark

导航

公告