Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

arXiv: Learning, (2019)

Abstract

　　深度RL算法需要大量经验才能学习单个任务。原则上，元强化学习(meta-RL)算法使智能体能够从少量经验中学习新技能，但一些主要挑战阻碍了它们的实用性。当前的方法严重依赖于同策经验，从而限制了其采样效率。在适应新任务时，也缺乏推断任务不确定性的机制，从而限制了它们在稀疏奖励问题中的有效性。在本文中，我们通过开发一种异策元RL算法来解决这些挑战，该算法可以分离任务推断和控制。在我们的方法中，我们对隐任务变量执行在线概率滤波，以从少量经验中推断出如何解决新任务。这种概率解释可以进行后验采样，以进行结构化且有效的探索。我们演示了如何将这些任务变量与异策RL算法集成在一起，以实现高效元训练与适应。在几个元RL基准测试中，我们的方法在样本效率和渐近性能方面都比以前的算法好20-100倍。

1. Introduction

　　RL与强大的非线性函数近似的结合，导致了序列决策问题的广泛发展。但是，常规的RL方法针对每个任务学习单独的策略，每种方法通常需要与环境进行数百万次交互。用这种方法快速学习大量的行为内容变得令人望而却步。幸运的是，我们希望我们的自主性智能体解决许多共同结构的问题。例如，拧紧瓶盖和转动门把手都需要抓住手中的物体并旋转手腕。利用这种结构来更快地学习新任务仍然是一个开放且紧迫的话题。元学习方法通过利用跨任务分布收集的大量经验，从经验中学习这种结构。一旦掌握了这些经验，这些方法就可以迅速适应新任务。

　　虽然元学习策略仅需进行几次试验即可适应新任务，但在训练期间，它们需要从大量不同任务中提取大量数据，从而加剧了困扰RL算法的样本效率问题。当前的大多数元RL方法在元训练和适应过程中都需要同策数据(Finn et al., 2017; Wang et al., 2016; Duan et al., 2016; Mishra et al., 2018; Rothfuss et al., 2018; Houthooft et al., 2018)，这使得它们在元训练期间效率极低。然而，将异策数据用于元RL带来了新的挑战。元学习通常基于元训练时间应与元测试时间相匹配的原则进行操作——例如，对通过五个示例进行图像分类测试的图像分类元学习器进行元训练，需要接受五个示例的集合并产生准确的预测(Vinyals et al., 2016)。这使得利用异策数据对策略进行元训练存在固有的困难，这与策略在元测试时间探索(同策)新任务时看到的数据存在系统性差异。

　　在本文中，我们解决了有效的异策元RL问题。为了实现高效元训练和快速适应性，我们提出了一种将概率上下文变量的在线推断与现有的异策RL算法集成的方法。快速适应需要对分布进行推断：当首次接触新任务时，最优的元学习策略必须执行随机探索过程以访问潜在奖励状态，并适应手头的任务(Gupta et al., 2018)。在元训练期间，我们将学习一个概率编码器，该编码器从先前经验中收集必要的统计信息，并将其累积到上下文变量中，使得策略可以执行任务。在元测试时间，当智能体面临未知任务时，可以在回合持续时间内对上下文变量进行采样并使其保持不变，从而可以进行时间扩展的探索。所收集的轨迹用于更新上下文变量的后验，从而实现快速的轨迹级适应。实际上，我们的方法通过对"任务假设"进行采样，尝试执行这些任务，然后评估这些假设是否正确来进行调整。将任务推断从动作中解脱出来，使我们的方法特别适合于异策元学习；可以使用异策数据优化策略，同时使用同策数据来训练概率编码器，以最小化元训练和元测试之间的分布不匹配。

　　我们工作的主要贡献是一种异策元RL算法，称为概率嵌入actor-critic RL(PEARL)。我们的方法在元训练期间实现了出色的样本效率，通过在线积累经验来实现快速适应，并通过推断任务的不确定性来进行结构化探索。在我们的实验评估中，我们证明了最新的结果，在六个连续控制的元学习环境中，元训练样本效率提高了20-100倍，渐近性能大大提高。我们进一步研究了我们的模型如何进行结构化探索，以在稀疏奖励的二维导航环境中快速适应新任务。我们的PEARL开源实现可以在https://github.com/katerakelly/oyster中找到。

2. Related Work

　　Meta-learning. 在RL的背景下，我们的工作建立在元学习框架(Schmidhuber, 1987; Bengio et al., 1990; Thrun＆Pratt, 1998)上。最近，已经为元学习动态模型(Nagabandi et al., 2019; Sæmundsson et al., 2018)和策略(Finn et al., 2017; Duan et al., 2016; Mishra et al., 2018)开发了元RL方法，可以快速适应新任务。

　　循环(Duan et al., 2016; Wang et al., 2016)和递归(Mishra et al., 2018)元RL方法通过将经验汇聚为策略所依托的隐表征来适应新任务。这些方法可以归类为我们称为基于上下文的元RL方法，因为训练了神经网络以将经验作为输入作为任务特定上下文的一种形式。同样，我们的方法也可以被认为是基于上下文的。但是，我们用概率隐变量表示任务上下文，从而可以对任务不确定性进行推断。我们不使用循环，而是利用置换不变编码器中的Markov属性来汇聚经验，从而实现快速优化(尤其是针对长时间步骤任务)，同时减少过拟合。尽管先前的工作已经研究了可以通过异策Q学习方法训练循环Q函数的方法，但此类方法通常已应用于更简单的任务(Heess et al., 2015)和离散环境(Hausknecht＆Stone, 2015)。确实，我们在6.3节中进行的实验表明，很难将循环策略与异策学习相结合。通过将策略依托于演示的一个学到的嵌入，并通过行为克隆进行优化，上下文方法也已应用于模仿学习(Duan et al., 2017; James et al., 2018)。

　　与基于上下文的方法相反，基于梯度的元RL方法使用策略梯度从汇聚到的经验中学习(Finn et al., 2017; Stadie et al., 2018; Rothfuss et al., 2018; Xu et al., 2018a)，元学习到的损失函数(Sung et al., 2017; Houthooft et al., 2018)或超参数(Xu et al., 2018b)。这些方法侧重于同策元学习。相反，我们专注于从异策数据进行元学习，将这与基于策略梯度和进化优化算法的方法结合是有意义的。除了大幅提高样本效率外，我们还实证发现，与使用策略梯度的方法相比，基于上下文的方法能够达到更高的渐近性能。

　　在RL之外，针对小样本监督学习问题的元学习方法探索了各种各样的方法和结构(Santoro et al., 2016; Vinyals et al., 2016; Ravi＆Larochelle, 2017; Oreshkin et al., 2018)。我们的置换不变式嵌入函数受原型网络的嵌入函数启发(Snell et al., 2017)。当他们在学习的确定性嵌入空间中使用距离度量对新输入进行分类时，我们的嵌入是概率性的，用于确定RL智能体的行为。据我们所知，没有任何先前的工作提出过针对元RL的特定嵌入函数。

Probabilistic meta-learning. 先前的工作已经将概率模型应用于监督和RL领域的元学习。多层贝叶斯模型已被用于建模小样本学习(Fei-Fei et al., 2003; Tenenbaum, 1999)，包括执行基于梯度的适应的方法(Grant et al., 2018; Yoon et al., 2018)。对于监督学习，Rusu et al. (2019); Gordon et al. (2019); Finn et al. (2018)使用通过摊销近似推断来推断出概率隐任务变量来适应模型预测。我们将此想法扩展到异策元RL。在RL的背景下，Hausman et al. (2018)也对推断的任务变量设定了条件，但目的是通过嵌入空间组成任务，而我们专注于快速适应新任务。在我们推断任务变量并通过后验采样进行探索的同时，MAESN(Gupta et al., 2018)通过优化具有梯度下降的任务变量进行适应，并通过先验采样进行探索。

Posterior sampling. 在经典RL中，后验采样(Strens, 2000; Osband et al., 2013)在可能的MDP上保持后验，并通过根据采样的MDP采取最优动作来进行时间扩展探索。我们的方法可以解释为该方法的元学习变体。概率上下文捕获了任务的当前不确定性，从而允许智能体以类似的结构方式探索新任务。

Partially observed MDPs. 通过将任务作为状态的未观察部分，可以将元RL中测试时间的适应视为POMDP中RL的一种特殊情况(Kaelbling et al., 1998)。我们使用与Igl et al. (2018)相关的变体方法来评估对任务的信心。当他们专注于解决通用的POMDP时，我们利用元学习问题强加的额外结构来简化推断，并使用后验采样进行新任务的探索。

3. Problem Statement

　　我们的方法受到智能体可以利用先前任务的各种经验来快速适应即将出现的新任务的启发。样本效率对于我们的问题陈述至关重要，无论是先前经验的样本数量(元训练效率)，还是新任务所需的经验数量(适应效率)。为了达到高效元训练，我们在我们的方法中利用了异策RL。高效适应要求智能体推断其对任务的不确定性，尤其是在稀疏奖励设置中。为了捕获我们对任务的信念的不确定性，我们学习了先前经验的概率隐表征。我们在本节中将问题陈述形式化，在第4节中将我们的适应方法表述为概率推断，并在第5节中说明如何将我们的方法与异策RL算法集成。

　　与以前的元RL公式类似，我们假设一个任务的分布p(T)，其中每个任务是一个马尔可夫决策过程(MDP)，由状态，动作，转换函数和有界奖励函数的集合组成。我们假设转换和奖励函数是未知的，但是可以通过在环境中执行动作来进行采样。形式上，任务T = {p(s₀), p(s_t+1|s_t, a_t), r(s_t, a_t)}由初始状态分布p(s₀)，转换分布p(s_t+1|s_t, a_t)和奖励函数r(s_t, a_t)组成。请注意，此问题定义涵盖了具有可变转换函数(例如，具有不同动态的机器人)和可变奖励函数(例如，导航到不同位置)的任务分布。给定一组从p(T)采样的训练任务，元训练过程通过以先前转换的历史为条件来学习适应当前任务的策略，我们将其称为上下文c。令是任务T中的一个转换，因此包含了迄今为止收集的经验。在测试时，策略必须适应从p(T)提取的新任务。

4. Probabilistic Latent Context

　　我们捕获有关如何在隐概率上下文变量Z中执行当前任务的知识，在该变量上我们将策略设置为π_θ(a|s, z)，以使其行为适应任务。元训练包括利用来自各种训练任务的数据来学会从新任务的最新经验历史中推断出Z值，以及优化策略来解决任务(给定Z的后验样本)。在本节中，我们描述了元训练推断机制的结构。我们将在第5节中介绍如何使用异策RL算法执行元训练。

4.1. Modeling and Learning Latent Contexts

　　为了实现适应，隐上下文Z必须对有关任务的显著信息进行编码。回想一下包含了迄今为止收集的经验；在本节中，为简单起见，我们通常会写作c。我们采用摊销变分推断方法(Kingma＆Welling, 2014; Rezende et al., 2014; Alemi et al., 2016)来学会推断Z。我们训练了一个由Φ参数化的推断网络q_Φ(z|c)来估计后验p(z|c)。在生成方法中，这可以通过优化q_Φ(z|c)重建MDP(通过学习奖励和动态的预测模型)来实现。或者，可以以无模型的方式优化q_Φ(z|c)，以对状态-动作价值函数进行建模或通过任务分布中的策略最大化回报。假设此目标为对数似然，则产生的变分下界为：

如上所述，其中p(z)是Z上的单位高斯先验，而R(T, z)可能是多种目标。KL散度项也可以被解释为约束Z和c之间互信息的信息瓶颈的变分近似结果(Alemi et al., 2016)。直观地，此瓶颈将z约束为仅包含来自上下文的信息，这些信息对于适应当前任务是必需的，从而减轻了对训练任务的过拟合。虽然在元训练期间优化了q_Φ的参数，但在元测试时间，我们仅从收集的经验中推断新任务的隐上下文。

　　在设计推断网络q_Φ(z|c)的结构时，我们希望它具有足够的表现力，以捕获与任务相关的信息的最小足够统计，而无需建模无关的依赖项。我们注意到，完全观察到的MDP的编码应该是置换不变的：如果我们想推断任务是什么，识别MDP模型或训练价值函数，则足以访问转换的集合，而不考虑观察到这些转换的顺序。考虑到这一点，我们选择q(z|c_1:N)的置换不变表征，并将其建模为独立因子的乘积：

　　为了使该方法易于处理，我们使用高斯因子，这导致了高斯后验。由f_Φ表示的神经网络由Φ参数化，用于预测均值µ和方差σ作为c_n的函数，如图1所示。

4.2. Posterior Sampling and Exploration via Latent Contexts

　　将隐上下文建模为概率模型，使我们可以利用后验采样在元测试时间进行有效的探索。在经典RL中，后验采样(Strens, 2000; Osband et al., 2013)从MDP上的先验分布开始，根据迄今为止的经验计算后验分布，并在回合期间针对采样的MDP执行最优策略，作为探索的有效方法。特别是，根据随机MDP进行最优动作可以进行时间扩展(或深度)探索，这意味着即使动作的结果不能立即说明任务，智能体也可以采取动作来检验假设。

　　在单任务深度RL设置中，Osband et al. (2016)探索了后验采样和深度探索的好处，它通过自举保持了价值函数的近似后验。相比之下，我们的方法PEARL直接推断隐上下文Z上的后验，如果对重构进行优化，则可能对MDP本身进行编码；如果对策略进行优化，则可能对最优行动进行编码；如果对critic进行优化，则可能对价值函数进行编码。我们的元训练过程利用训练任务来学习Z的先验知识，该先验知识可以捕获任务的分布情况，还可以学习有效地利用经验来推断新任务。在元测试时间，我们首先从先验中采样z并根据每个z执行一个回合，从而以时间扩展且多样化的方式进行探索。然后，我们可以利用所收集的经验来更新后验，并继续进行连贯的探索，其方式类似于我们的后验采样，随着我们的信念变窄，其动作越来越优化。

5. Off-Policy Meta-Reinforcement Learning

　　尽管我们的概率上下文模型可以轻松地与同策的策略梯度方法结合使用，但我们工作的主要目标是实现高效的异策元RL，其中元训练和快速适应需要的样本数量最少。在先前的工作中，元训练过程的效率在很大程度上被忽略，它使用了稳定但效率相对较低的同策算法(Duan et al., 2016; Finn et al., 2017; Gupta et al., 2018; Mishra et al., 2018)。但是，设计异策元RL算法并非易事，部分原因是现代元学习是基于这样的假设：用于适应的数据分布将在元训练和元测试之间匹配。在RL中，这意味着由于在元测试时将使用同策数据进行适应，因此在元训练期间也应使用同策数据。此外，元RL需要策略来推断分布，以学习有效的随机探索策略。此问题固有地无法通过最小化TD误差的异策RL方法来解决，因为它们没有能力直接针对访问的状态分布进行优化。相反，策略梯度方法可以直接控制策略所采取的动作。鉴于这两个挑战，将元学习和基于价值的RL相结合的幼稚方法可能无效。实际上，我们无法优化这种方法。

　　我们在第4节中使用概率上下文设计异策的元RL方法的主要见解是，用于训练编码器的数据不必与用于训练策略的数据相同。该策略可以将上下文z视为异策RL环中状态的一部分，而探索过程的随机性由编码器q(z|c)中的不确定性提供。始终使用从整个回放缓存B采样的异策数据来训练actor和critic。我们定义了一个采样器S_c来采样上下文批次以训练编码器。允许S_c从整个缓存采样会导致与同策测试数据的分布不匹配太极端。但是，上下文不必严格同策。我们发现，从最近收集的数据的回放缓存中采样的中间策略能够以更高的效率保留同策性能。我们在图2和算法1中总结了训练过程。元测试在算法2中进行了描述。

5.1. Implementation

　　我们在soft actor-critic算法(SAC)(Haarnoja et al., 2018)的基础上构建算法，这是一种基于最大熵RL目标的异策actor-critic方法，该方法以策略的熵增加了折扣回报的传统总和。

　　SAC表现出良好的采样效率和稳定性，并且还具有与概率隐上下文能够很好集成的概率解释。我们使用重参数化技巧(Kingma＆Welling, 2014)来优化推断网络q(z|c)的参数以及actor π_θ(a|s, z)和critic Q_θ(s, a, z)的参数，通过采样的z为q_Φ(z|c)的参数计算梯度。我们使用来自Bellman更新的梯度为critic训练推断网络。我们实证发现，训练编码器以恢复状态-动作价值函数优于对其进行优化以最大化actor回报或重建状态和奖励。critic损失可以写成：

其中是目标网络，表示没有通过它计算梯度。actor损失几乎与SAC相同，还额外依赖于z作为策略输入。

　　请注意，用于推断q_Φ(z|c)的上下文不同于用于构造critic损失的数据。如第5节所述，在元训练期间，我们将上下文批次与RL批次分开采样。具体地，上下文数据采样器S_c从最近收集的一批数据中均匀采样，每1000个元训练优化步骤重新收集一次。actor和critic利用从整个回放缓存中均匀抽取的一批转换进行训练。

6. Experiments

　　在我们的实验中，我们评估了该方法的性能并分析了其性能。我们首先在第6.1节中的几个基准元RL问题上将我们的方法与现有元RL方法进行比较评估(特别是在样本效率方面)。我们在第6.2节中的稀疏奖励设置中研究了概率上下文和后验采样如何通过结构化探索策略实现快速适应。最后，在6.3节中，我们通过消融评估了算法中的特定设计选择。

6.1. Sample Efficiency and Performance

Experimental setup. 我们通过MuJoCo模拟器(Todorov et al., 2012)对围绕机器人运动的六个连续控制环境进行了PEARL评估。这些运动任务系列需要在奖励函数(Half-Cheetah-Fwd-Back, Ant-Fwd-Back, Humanoid Direc-2D这四者的运动方向, Half-Cheetah-Vel的目标速度以及Ant-Goal-2D的目标位置)或者动态(Walker-2D-Params的随机系统参数)之间进行调整。这些元RL基准先前是由Finn et al. (2017)和Rothfuss et al. (2018)引入的。所有任务的时间步骤长度均为200。我们使用公开代码与现有的策略梯度元RL方法ProMP(Rothfuss et al., 2018)和MAML-TRPO(Finn et al., 2017)进行比较。我们还使用PPO(Schulman et al., 2017)重新实现了基于循环的策略梯度RL²方法(Duan et al., 2016)。每个算法的结果在三个随机种子中取均值。我们尝试使循环DDPG(Heess et al., 2015)适应我们的环境，但无法通过这种方法获得合理的结果。我们假设这是由于多种因素的组合，包括第5节中讨论的适应数据中的分布不匹配以及使用轨迹而不是去相关的转换进行训练的难度。这种方法并未像我们一样明确推断出对任务的信念，而是将任务推断和最优行为的负担留给了RNN。在PEARL中，从策略中解耦任务推断使我们可以自由选择最适合异策学习的编码器数据和目标。在第6.3节中，我们将在我们自己的方法中尝试使用循环架构。

Results. 为了评估元测试任务，我们在轨迹级别执行适应，在该级别上，第一个轨迹是使用从先验r(z)采样的上下文变量z收集的。随后的轨迹使用z ~ q(z|c)收集，其中上下文在所有收集的轨迹上汇聚。为了计算最终的测试时间性能，我们报告了在将两条轨迹汇聚到上下文中之后收集的轨迹的平均回报。值得注意的是，我们发现RL²在这些基准上的性能比以前报告的要好得多，这可能是由于使用PPO进行了优化并选择了更好的超参数。我们观察到，就渐近性能和样本效率而言，PEARL在所有领域中的性能均明显优于先前的元RL方法，如图3所示。在这里，我们在PEARL收敛所需的时间步骤数处截断了x轴；有关该图的完整时间尺度版本，请参见附录A。我们发现，与以前的元RL方法相比，PEARL在元训练期间使用的样本减少了20-100倍，同时在六个域中的五个域中将最终渐近性能提高了50-100％。

6.2. Posterior Sampling For Exploration

　　在本节中，我们评估模型中的后验采样是否能够在稀疏奖励MDP中启用有效的探索策略。直观地，通过从先验上下文分布r(z)中采样，智能体根据之前看到的训练任务的分布对假设进行采样。当智能体在环境中采取动作时，上下文后验p(z|c)会更新，从而允许其根据多个假设进行推断来确定任务。我们通过2-D导航任务演示了此行为，在该任务中，点机器人必须导航到半圆边缘上的不同目标位置。我们对训练和测试任务集进行采样，每个任务包含100个随机采样的目标。仅当智能体在目标的特定半径内时才给予奖励。我们用半径0.2和0.8进行实验。虽然我们的目标是适应具有稀疏奖励的新任务，但是具有稀疏奖励的元训练非常困难，因为这相当于从头解决许多稀疏奖励任务。因此，为简单起见，我们假设在元训练期间可以使用密集奖励，就像Gupta et al. (2018)所做的那样，但也可以通过与任务无关的探索策略来减轻这种负担。

　　在这种设置下，我们与MAESN(Gupta et al., 2018)进行了比较，MAESN是一种也可以对概率任务变量进行建模并执行同策且基于梯度的元学习的现有方法。我们证明了我们能够以更少的轨迹适应新的稀疏目标。即使样本较少，PEARL在最终性能方面也优于MAESN。在图4中，我们比较了测试任务的适应性能。除了获得更高的回报和更快地适应之外，PEARL在元训练期间也更加高效。我们的结果是使用~10⁶时间步骤实现的，而MAESN是使用~10⁸时间步骤实现的。

6.3. Ablations

　　在本节中，我们将去除我们方法的特征，以更好地理解我们方法的显著特征。

Inference network architecture. 我们通过将隐上下文Z的置换不变编码器与编码MDP的常规选择(用于编码MDP的循环网络)(Duan et al., 2016; Heess et al., 2015)进行比较来检查我们的选择。请注意，尽管在第6.1节中我们考虑了基于循环的基准，类似于循环DDPG(Heess et al., 2015)，但此处我们保留了方法的所有其他特征，仅去除了编码器结构。我们将RNN反向传播至100个时间步骤。我们将上下文采样为完整轨迹，而不是像PEARL中那样的无序转换。我们尝试了两种方法来采样RL批次：

像PEARL一样的无序转换("RNN tran")
轨迹集("RNN traj")

　　在图5中，我们比较了Half-Cheetah-Vel域中测试任务的性能与元训练样本数量的关系。用RNN代替我们的编码器可产生与PEARL相当的性能，但代价是优化速度较慢。但是，RL批次的采样轨迹会导致性能急剧下降。该结果证明了将用于RL目标的样本去相关的重要性。

Data sampling strategies. 在我们的下一个实验中，我们将消除训练期间使用的上下文采样策略。借助采样器S_c，PEARL可以对无序转换进行批采样，这些无序转换(1)被限制为该策略最近收集的样本，并且(2)与RL小批量采样器收集的转换集不同。我们考虑S_c的两个其他选择：

从整个回放缓存中采样完全异策的数据，但与RL批次不同("off-policy")
使用与上下文相同的异策RL批次("off-policy RL-batch")

　　结果如图6所示。采样上下文异策会严重影响性能。在这种情况下，对RL和上下文使用相同的批次会有所帮助，也许是因为相关性使学习变得更容易。总体而言，这些结果证明了异策元RL中谨慎进行数据采样的重要性。

Deterministic context. 最后，我们研究了将隐上下文建模为概率的重要性。如第4节所述，我们假设概率上下文在稀疏奖励设置中特别重要，因为它允许智能体对任务的分布进行建模并通过后验采样进行探索。为了进行实证检验，我们通过将分布q_Φ(z|c)减小到点估计值来训练PEARL的确定性版本。我们在图7的稀疏导航域上比较了概率和确定性上下文。由于隐上下文变量中没有随机性，所以唯一的随机性来自策略，因此是时不变的，从而阻碍了时间扩展的探索。作为结果，这种方法无法解决稀疏的奖励导航任务。

7. Conclusion

　　在本文中，我们提出了一种新颖的元RL算法(PEARL)，该算法通过对以策略为条件的隐上下文变量进行推断来进行自适应。我们的方法特别适合于异策RL算法，因为它解耦了推断任务的问题并解决了它，允许异策元训练，同时最小化训练和测试上下文分布之间的不匹配。将上下文建模为概率模型可以在测试时进行后验采样以进行探索，从而在时间上扩展探索行为以提高适应效率。与以前的元RL算法相比，我们的方法可获得更好的结果，并且在一系列连续控制元RL域上所需的经验要少得多。

A. Experimental Details

　　同策的基准方法需要更多样本来学习基准任务。在这里，我们为图9中的基准所使用的全部时间步骤数绘制了与图3相同的数据。图8中显示了在这些连续控制域中使用的智能体。在这里，我们描述了每个元学习域。

Half-Cheetah-Dir：向前和向后移动(2个任务)
Half-Cheetah-Vel：实现向前奔跑的目标速度(100个训练任务，30个测试任务)
Humanoid-Dir-2D：在2D网格上向目标方向运动(100个训练任务，30个测试任务)
Ant-Fwd-Back：向前和向后移动(2个任务)
Ant-Goal-2D：导航到2D网格上的目标位置(100个训练任务，30个测试任务)
Walker-2D-Params：智能体初始化时随机分配了一些系统动态参数，并且必须向前移动(40个训练任务，10个测试任务)

posted on 2020-09-08 23:40 穷酸秀才大草包阅读(1281) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

穷酸秀才大艹包

Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

导航

公告