Model-Free Episodic Control

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

CoRR, (2016)

Abstract

　　最先进的深度强化学习算法需要数百万次交互才能达到人类水平的性能。另一方面，人类在首次发现时就可以非常迅速地利用环境中高度有益的细微差别。在大脑中，这种快速学习被认为取决于海马体及其对回合式记忆的能力。在这里，我们调查简单的海马体回合式控制模型是否可以学习解决困难的序列决策任务。我们证明，它不仅比最先进的深度强化学习算法快得多地获得高奖励的策略，而且在某些更具挑战性的领域上也获得了更高的整体奖励。

1 Introduction

　　深度强化学习最近在各个领域都取得了显著成功[23, 32]。但是，这是非常数据低效的。例如，在Atari游戏[2]领域中，深度RL系统通常需要与游戏模拟器进行数千万次交互，这需要数百个小时的游戏时间才能达到人类水平的性能。正如[13]所指出的，人类学会了更快地玩这些游戏。本文解决了如何在没有任何特定领域先验知识的情况下在机器上模拟这种快速学习能力的问题。
　　当前的深度RL算法可能会发生或者被显示在高奖励的动作序列上。不幸的是，由于它们对基础策略或价值函数的基于梯度的更新较慢，因此这些算法需要大量步骤来吸收此类信息并将其转化为策略改进。因此，这些算法缺乏迅速锁定成功策略的能力。由[16]引入的回合式控制是一种补充方法，可以迅速重新制定已观察到的成功策略。回合式控制记录了高奖励的经验，并遵循回放以前产生高回报的动作序列的策略。

　　在大脑中，海马体和相关的颞叶内侧结构对这种快速学习形式的支持至关重要[1, 34]。例如，老鼠在需要导航到隐藏平台的任务中的表现会因这些结构的损伤而下降[24, 36]。海马体学习被认为是基于实例的[18, 35]，而皮层系统代表了输入分布的广义统计摘要[20, 27, 41]。海马体系统可用于通过共同表示环境状态与从各种可能的动作中获得的回报来指导序列决策。在这样的编码之后，在给定的探测状态下，可以通过在CA3子区域[9, 21, 26, 40]中完成模式来检索与每个可能的动作相关的回报。通过动作序列获得的最终价值可以通过奖励事件后发生的海马体位置细胞激活的逆序回放而迅速与其各个组件状态-动作对相关联[7]。

　　人类和动物利用多种学习，记忆和决策系统，每种系统最适合不同的环境[5, 33]。例如，当环境的精确模型可用，并且有足够的时间和工作内存资源时，最优策略是与前额叶皮层相关的有模型规划[5]。但是，当没有时间或没有资源可用于规划时，必须采用计算密集度较低的即时决策系统[29]。这在早期学习新环境时就提出了一个问题，因为在这种情况下，无模型决策系统的准确性甚至更低，因为它还没有足够的重复经验来学习精确的价值函数。相反，在这种情况下，无模型回合式控制可能最有用。因此，关于海马体参与无模型控制的论据与关于其参与有模型控制的论据相平行。在这两种情况下，基于实例的快速学习控制策略都可以作为粗略的近似值，而可以训练较慢且更通用的决策系统[16]。

　　回合式控制的适用范围可能会由于世界的复杂性而毫无疑问地受到限制。在实际环境中，很少会再次探讨相同的确切情况。用RL术语来说，重复访问完全相同的状态也是非常罕见的。在这里，我们显示了常用的Atari环境不具有此属性。实际上，我们证明，在这项工作中开发的智能体在10-60％的时间内重新遇到了完全相同的Atari状态。不出所料，回合式控制器在这种情况下效果很好。此方法的关键测试是它是否还可以在更现实的环境中工作，在这些环境中状态永远不会重复，并且必须对相似状态进行泛化。至关重要的是，我们还表明，我们的回合式控制模型在此类(3D)环境中(基本上从不重新访问同一状态)仍然表现良好。

2 The episodic controller

　　具有确定性状态转换和奖励的环境在日常经验中很常见。例如，在导航中，当你退出某个房间然后返回时，通常会在你开始的房间中结束。RL算法或大脑可以利用自然环境的这种特性。但是，大多数现有的可拓展深度RL算法(例如DQN[23]和A3C[22])都没有这样做。设计它们时考虑了更一般的环境。因此，从原则上讲，他们可以在转换和奖励方面都具有高度随机性的机制下运作。这种普遍性是以更长的学习时间为代价的。DQN和A3C都试图找到具有最大期望回报的策略。评估期望回报需要许多示例，以便获得准确的估计。此外，梯度下降学习会进一步降低这些算法的速度，通常与环境中采取动作的频率同步。

　　考虑到现实世界中这种不确定性情况的普遍存在，如果大脑不采用专门的学习机制来利用这种结构从而在这种情况下更快地学习，那将是令人惊讶的。我们在这里提出的基于海马体实例学习的回合式控制器模型就是这样一种机制。它是一个非参数化模型，可以快速记录和回放到目前为止从给定的开始状态获得最高回报的动作序列。在最简单的形式中，它是一个不断扩大的表格，以状态和动作为索引。通过与RL价值函数的类比，我们将该表表示为Q^EC(s, a)。每个条目都包含从状态s采取动作a获得的最高回报。

　　回合式控制策略选择给定状态的Q^EC中最高价值的动作。在每个回合的末端，根据收到的回报更新Q^EC，如下所示：

其中R_t是在状态s_t采取动作后收到的折扣回报。请注意，(1)不是通用目的RL学习更新：由于存储的价值永远不会减少，因此不适合在随机环境中进行合理的动作选择。¹

　　表格式RL方法存在两个关键缺陷：首先，对于大问题，它们会占用大量内存，其次，它们缺乏一种在相似状态之间进行泛化的方法。为了解决第一个问题，一旦达到最大大小，我们将通过删除最近最少更新的条目来限制表的大小。大脑中也会出现这种忘记较早且访问频率较低的记忆的情况[8]。

　　在大规模的RL问题(例如现实生活)中，新颖的状态很常见。通常，现实世界也具有此属性。通过将Q^EC视为非参数化最近邻模型，我们解决了在新状态下该做什么以及如何在通用经验中泛化价值的问题。让我们假设状态空间S充满了度量距离。对于从未访问过的状态，通过对k个最近状态的价值求均值来近似Q^EC。因此，如果s是一个新状态，则Q^EC估计为：

其中s⁽ⁱ⁾，i = 1, ... , k是与状态s距离最小的k个状态。²

　　算法1描述了无模型回合式控制的最基本形式。该算法分为两个阶段。首先，对Q^EC隐含的策略执行一个完整回合，记录每个步骤收到的奖励。这是通过将每个观测值通过嵌入函数Φ从环境o_t投影到适当状态空间中的状态来完成的：s_t = Φ(o_t)，然后根据Q^EC选择具有最高估计回报的动作。在第二阶段，通过反向回放过程将回合中的奖励，动作和状态关联到Q^EC中，以改进策略。有趣的是，此反向回放过程是[7]所示的海马体状态清醒反向回放的潜在算法实例，尽管到目前为止，我们还不知道有任何实验测试这种对海马体的有趣使用。

　　回合式控制器根据Q^EC中记录的回报进行动作，以尝试回放成功的动作序列并再现过去的成功。因此，存储在Q^EC中的价值并不对应于期望回报的估计，而是基于所看到的状态，奖励和动作，对于给定状态和动作的最高潜在回报的估计。在开发比探索更重要的机制和噪声相对较小的环境中，根据这种价值函数进行计算和行为很有用。

¹ 遵循选择具有最高Q^EC价值的动作的策略会在随机环境中产生强烈的风险寻求行为。相反，也可以删除max运算符并直接存储R_t。这样得出的结果不太乐观，在初步实验中效果更差。
² 实际上，我们通过为每个动作a ∈ A配备一个kNN缓存并在每个缓存中找到状态s的k个最接近状态来实现这一点。

3 Representations

　　在大脑中，海马体以一种表征进行操作，该表征尤其包括腹侧流的输出[3, 15, 38]。因此，期望沿着表征空间的维度进行泛化[19]。类似地，特征映射Φ可以在我们的回合式控制算法遇到新状态时发挥关键作用³。

　　虽然可以使用原始的观察空间，但实际上可能不起作用。例如，我们在第4节中考虑的环境中的每个帧将占用大约28KB的内存，并且需要超过300GB的内存用于我们的实验。取而代之的是，我们考虑在状态空间中观察到的两种不同的嵌入Φ，每种嵌入在设置Q^EC估计量的归纳偏差时具有非常独特的属性。

　　减少内存和计算需求的一种方法是利用原始观测值到较小维度空间的随机投影，即：Φ：x → Ax，其中A ∈ R^FxD和，其中D是观测值的维数。对于具有从标准高斯分布中抽取的项的随机矩阵A，Johnson-Lindenstrauss引理意味着该变换大致保留了原始空间中的相对距离[10]。当原始观察空间的小变化对应于基础回报的小变化时，我们期望这种表征是足够的。

　　对于某些环境，观察空间的许多方面与价值预测无关。例如，在3D环境中(例如，第4节中的Labyrinth)的照明和纹理表面，以及在2D环境中(例如，第4节中的River Raid)的滚动背景通常可能是无关紧要的。在这些情况下，原始观察空间中的小距离可能与动作-价值中的小距离不相关。能够提取状态空间的更抽象表征的特征提取方法(例如，在2D电子游戏的情况下为3D几何形状或子画面的位置)可能会导致更合适的距离计算。通过使用隐变量概率模型可以获得抽象特征。补充材料进一步描述了变分自编码器(VAE; [12, 30])，它在图像的各种无监督学习问题中显示出了巨大的希望。有趣的是，VAE以无监督的方式学到的隐表征可以位于结构良好的流形上，该流形捕获变化的显著因素[12, 图4(a)和(b)]; [30, 图3(b)]。在我们的实验中，我们在随机动作的智能体的帧上训练VAE。使用不同的数据源将产生不同的VAE特征，并且原则上可以将一项任务的特征用于另一项任务。此外，还可以学习用于比较嵌入的距离度量。我们将这两个有趣的扩展留给以后的工作。

³ 理解这一点的一种方法是，此特征映射Φ确定回合式控制器下的k-最近邻算法所隐含的状态空间到Voronoi细胞的动态离散化。

4 Experimental results

　　我们在两个环境中测试了我们的算法：Arcade学习环境(Atari)[2]和被称为Labyrinth的第一人称3维环境[22]。可以在线获得训练到的智能体的视频⁴。

　　Arcade学习环境是最初为Atari-2600控制台开发的一系列街机游戏。这些游戏在视觉上相对简单，但需要复杂且精确的策略才能获得较高的期望奖励[23]。

　　Labyrinth提供了更复杂的视觉体验，但需要相对简单的策略，例如在存在特定视觉信号时转弯。三种Labyrinth环境分别在搜寻具有竞争性，不利性和稀疏性奖励性结构的任务。

　　对于每种环境，我们使用两个观测值嵌入Φ来测试回合式控制器的性能：(1) 64个像素观测值的随机投影和(2) VAE中高斯近似在隐维度上后验的64个参数。

　　对于使用VAE隐特征的实验，在训练开始时对一百万个帧使用了随机策略，这一百万个观测值用于训练VAE。回合式控制器在这一百万帧之后启动，并使用从VAE获得的特征。在欧氏距离的计算中，均值和对数标准偏差参数都用作维度。为了说明训练的初始阶段，我们将使用VAE特征的智能体的性能曲线位移了一百万帧。

⁴ https://sites.google.com/site/episodiccontrol/

4.1 Atari

　　对于Atari实验，我们考虑了一组五种游戏，即：Ms. PAC-MAN, Q*bert, River Raid, Frostbite和Space Invaders。我们将我们的算法与原始DQN算法[23]，优先回放DQN[31]和异步优势执行者-评论者[22](A3C)(一种最新的策略梯度方法⁵)进行了比较。借鉴[23]，观测值被重新缩放为84 x 84像素，并转换为灰度。Atari仿真器每秒游戏可产生60次观察(帧)。智能体每秒与环境交互15次，动作重复4次以减少计算需求。一个小时的游戏时间大约相当于200000帧。

　　在回合式控制器中，状态-价值对的每个缓存(每个动作一个)的大小限制为一百万个条目。如果缓存已满，并且必须引入新的状态-价值对，则丢弃最近最少使用的状态。使用k = 11的k-最近邻查找。折扣率被设置为γ = 1。使用ε = 0.005的ε-贪婪策略实现探索。我们发现，较高的探索率没有那么多收益，因为更多的探索使人们难以利用已知的东西。请注意，先前发布的探索率(例如[22, 23])至少要高出十倍。因此，有趣的是，我们的方法在相对较少的随机探索的情况下，可以在广泛的域中获得良好的性能。

　　结果显示在图1的前两行中。就数据效率而言，在所有游戏的初始学习阶段，回合式控制器的性能均优于所有其他算法。在Q*bert和River Raid上，回合式控制器最终被某些参数化控制器(图1中未显示)所取代。在快速学习的初始阶段之后，回合式控制器受到每个回合中可获得的新经验的相对数量减少的限制，因为这些经验变得越来越长。相反，参数化控制器可以利用其非局部泛化能力来处理游戏的后期阶段。

　　两种不同的嵌入(随机投影和VAE)对回合式控制策略的性能没有显著影响。两种表征都证明了比参数策略更加数据高效。唯一的例外是Frostbite，其中VAE特征的性能明显较差。这可能是由于随机策略无法在游戏中达到很远，这导致VAE的训练集非常差。

　　深度Q网络和A3C在Atari中的策略改进步伐缓慢。对于Frostbite和Ms. PAC-MAN而言，这有时归因于幼稚的探索技术[13, 28]。我们的结果表明，与能够one-shot学习的系统结合使用时，像ε-贪婪这样的简单探索技术可以更快地改进策略。

　　Atari环境具有确定性的转换和奖励。每个回合从三十个可能的初始状态之一开始。因此，相当大比例的状态-动作对在Q值的缓存中完全匹配：Frostbite大约10％，Q*bert大约60％，Ms. PAC-MAN大约50％，Space Invaders大约45％，以及River Raid大约10％。在下一部分中，我们将报告在一组更实际的环境中进行的实验，在这些环境中，很少会遇到两次相同的确切经验。

⁵ 我们永远要感谢Tom Schaul的优先回放基准，以及Andrei Rusu的A3C基准。

4.2 Labyrinth

　　Labyrinth实验涉及三个层次(屏幕截图如图2所示)。该环境在物理时间的每个仿真秒内运行60次观察(帧)。观察结果是84 x 84像素的灰度图。智能体每秒与环境交互15次；动作会自动重复4帧(以减少计算需求)。智能体可以使用八种不同的可用动作(左移，右移，左转，右转，前移，后移，前移然后左转，前移然后右转)。在回合式控制器中，状态-价值对的每个缓存(每个动作一个)的大小限制为十万个条目。当缓存已满并且必须引入新的状态-价值对时，将丢弃最近最少使用的状态。k-最近邻查找使用k =50。折扣率设置为γ = 0.99。通过使用ε = 0.005的ε-贪婪策略来实现探索。作为基准，我们使用了A3C[22]。Labyrinth层次具有确定性的转换和奖励，但初始位置和朝向是随机的，并且环境更加丰富，是3维的。因此，与Atari不同，在Labyrinth上进行的实验在Q^EC-值的缓存中遇到的匹配很少。在所有三个层次中均小于0.1％。

　　每个层次都越来越困难。第一层称为Forage，要求智能体通过走过苹果来尽快收集苹果。每个苹果提供的奖励为1。在这里，一个简单的策略是转弯直到看到一个苹果，然后再向其移动。图1显示，回合式控制器很快找到了苹果寻求策略。最终，A3C迎头赶上，最终以一种更有效的拾苹果策略胜过了回合式控制器。

　　第二层称为Forage and Avoid，涉及收集苹果(苹果的奖励为1)，而避免柠檬(柠檬的奖励为-1)。该层次在图2(a)中描述。这个层次只需要比Forage(相同的策略加上避免添加柠檬)稍微复杂一些的策略，但是A3C花费了超过4000万步，达到了不到300万帧的回合式控制的相同性能。

　　第三层称为Double-T-Maze，它要求智能体在一个带有四个末端的迷宫中行走(图2(c)所示)，其中一个末端包含一个苹果，而其他三个末端包含一个柠檬。在每个路口处，将为智能体显示一个颜色信号，该信号指示苹果所在的方向(参见图2(b))：左侧(如果为红色)或右侧(如果为绿色)。如果智能体走过柠檬，则会产生-1的奖励。但是，如果它走过苹果，它将获得1的奖励，然后被传送回起始位置，并重新采样苹果的位置。回合的持续时间限制为1分钟，如果该回合足够快地解决任务，它可以多次到达苹果。Double-T-Maze是一个难以解决的RL问题：奖励稀疏。实际上，A3C从未获得过高于零的期望奖励。由于Double T-Maze层次的稀疏奖励性质，A3C在少数实例下通过状态空间中的随机扩散遇到奖励的情况下，对策略的更新不够充分。相比之下，回合式控制器在这些实例下表现出类似于one-shot学习的行为，并且能够从极少数回合中学习，这些回合包含不等于零的任何奖励。这使回合式控制器可以观察20到3000万帧来学习期望奖励为正的策略，而参数化策略从未学到期望奖励大于零的策略。在这种案例下，回合式控制在稀疏的奖励环境中迅速发展，因为它迅速锁定了一种有效的策略。

4.3 Effect of number of nearest neighbours on final score

　　最后，我们比较了使用VAE特征在Labyrinth和Atari任务上改变k(最近邻的数量)的影响。在上面的实验中，我们注意到在Atari上重新访问同一状态是很常见的，并且随机投影的性能通常与VAE特征相当或更好。另一个有趣的特征是，在Atari游戏中学到的VAE不会随着邻居数量的增加而产生更高的分数，除了在Q*bert一款游戏中，VAE的性能相当好外(参见图3a)。在Labyrinth层次上，我们观察到VAE的性能优于随机投影，并且智能体很少多次遇到同一状态。对于这种案例，有趣的是，图3b显示，增加最近邻的数量会对智能体在Labyrinth层次的最终性能产生重大影响。这有力地表明，VAE特征可为这种回合式控制智能体提供Labyrinth的泛化。

5 Discussion

　　这项工作解决了当前RL系统中的一个关键缺陷，即它们无法以one-shot方式学习。我们提出了一种基于非参数化经验记忆的快速学习系统。我们证明了它可以比参数化函数近似更快地学习良好的策略。但是，它可能在以后的训练阶段被超越。我们希望这些想法能在实际系统中找到应用，并导致数据高效的无模型方法。这些结果也为大脑可以使用回合式控制的假设提供了支持，尤其是在新环境中学习的早期阶段。还要注意，在某些情况下，总是期望回合式控制器的性能优于其他控制器。例如，当隐藏食物以备日后食用时，某些鸟(例如灌木丛鸦)比根据可能位置的分布进行搜寻要好得多，因为它们确切地记住了食物隐藏之处[4]。这些考虑因素支持模型，其中大脑使用多个控制系统和仲裁机制来确定在每个时间点应采取的动作[5, 16]。

　　我们将这种方法称为无模型回合式控制，以将其与有模型回合式规划区分开。我们推测，除了众所周知的分别与背外侧纹状体和前额叶皮层相关的习惯性和目标导向性系统外，大脑还可以使用这两种策略[5]。从这项工作中得出的初步印象是，可用于决策的时间和工作内存资源的数量是决定可用控制策略的关键。当必须快速做出决策时，基于规划的方法根本不是一种选择。在这种情况下，唯一的选择是在习惯性无模型系统和回合式无模型系统之间。当决策没有那么仓促时，就可以使用基于规划的方法，然后大脑必须在使用语义(新皮层)信息或回合式(海马体)信息的规划之间进行仲裁。在这两种计时方式中，是否使用回合式信息的关键决定因素是学习速度较慢的系统提供的估计中仍有多少不确定性。关于系统之间的统计折衷，该预测与[5, 16]的预测一致。它基于他们的工作，突出了仓促做出的决定和根据[29]的工作记忆资源不足可能产生的影响。这些想法可以通过操纵决策时间或工作记忆(也许通过正交任务)以及在不同统计条件下快速测量内侧颞叶与输出结构之间的连贯性来进行实验性测试。

A Variational autoencoders for representation learning

　　变分自编码器(VAE; [12, 30])是受压缩理论启发的隐变量概率模型。VAE(如图4所示)由两个ANN组成：编码器，它获取观察结果并将其映射为消息。解码器，接收消息并大致恢复为观察值。VAE旨在最大程度地减少通过通信通道将观测值从编码器传输到解码器的成本。为了最大程度地降低传输成本，VAE必须学会捕获观测分布的统计数据(例如，[17])。为了我们表征学习的目的，我们使用编码器网络作为特征映射。对于几个数据集，已经显示了VAE编码器学到的表征，可以捕获数据潜在生成过程中变化的独立因素[11]。

　　更详细地，编码器接收观测值x，并输出用于消息分布的参数值q(z|x = x)。通信信道通过消息上的先验分布p(z)来确定消息的成本。解码器接收从q(z|x = x)随机抽取的消息z，并通过输出观测值的分布参数对其进行解码p(x|z = z)。对VAE进行了训练，以最大程度地减少准确恢复原始观测值的成本，该成本由期望通信成本KL(q(z|x) || p(z))和期望校正成本E[p(x = x|z)]的总和给出。

　　在我们所有的实验中，x ∈ R⁷⁰⁵⁶(84 x 84灰度像素，范围为[0, 1])和z ∈ R³²。我们选择分布q(z|x)，p(z)和p(x|z)为具有对角协方差矩阵的高斯分布。在所有实验中，编码器网络使用四个卷积[14]层，分别具有{32, 32, 64, 64}个核，核大小为{4, 5, 5, 4}，核步幅为{2, 2, 2, 2}，无填充，以及ReLU[25]非线性。卷积层之后是512个ReLU单元的全连接层，线性层从中输出近似后验q(z|x)的均值和对数标准差。解码器设置为编码器的镜像，具有512个ReLU单元的全连接层，然后是四个反卷积[6]，分别具有{64, 64, 32, 32}个核，核大小为{4, 5, 5, 4}，核步幅为{2, 2, 2, 2}，无填充，然后进行反卷积，并带有两个输出核 —— 一个用于均值，一个用于p(x|z)的对数标准差。如果网络输出的价值较小，则p(x|z)中每个维度的标准差都不会设置为0.05。对VAE进行了建模，以模拟通过对每种环境执行随机策略获得的一百万个观测值。通过使用RmsProp优化器[39]，步骤大小为1e-5和大小为100的小批量运行400000步随机梯度下降来优化VAE的参数。

posted on 2020-09-13 17:04 穷酸秀才大草包阅读(441) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

穷酸秀才大艹包

Model-Free Episodic Control

导航

公告