Assessing Generalization in Deep Reinforcement Learning

深度强化学习(RL)在许多任务中取得了突破性成果,但已被证明对测试时的系统变化很敏感。因此,构建泛化能力强的DRL代理已经成为一个活跃的研究领域。,深度RL算法通常在固定环境中训练和评估。这些算法是根据他们在复杂环境中优化策略的能力来评估的,而不是他们学习能够推广到以前看不见的情况的表示的能力。实际上,文献中已经注意到它们对环境中微小变化的敏感性以及过度拟合特定环境的危险性(Rajeswaran等,2017b; Henderson等,2018; Zhang等,2018; Whiteson等。 al。,2011)。

泛化通常被认为是先进智能系统的基本特征,也是人工智能研究的核心问题(Lake et al。,2017; Marcus,2018; Dietterich, 2017)。它指的是与训练期间看到的类似的环境插值和训练数据分布之外的外推。后者尤其具有挑战性,但对于现实世界中的系统部署至关重要。插值意味着代理应该在测试环境中表现良好,其中参数类似于训练期间所见的参数。外推要求代理在参数与训练期间看到的参数不同的测试环境中表现良好。重要的是,我们不允许在测试时更新经过训练的模型或策略,这与迁移和多任务学习的许多基准不同。

我们还评估了两种解决深度RL泛化的方案:EPOpt,它通过最大化环境参数分配中最困难的预期回报来学习对环境变化具有鲁棒性的策略。RL 2,通过考虑其所看到的轨迹,学习可以适应当前环境的政策。实验结果证实外推比插值更困难

RL中的泛化。
RL中有两种主要的泛化方法:对环境变化具有鲁棒性的学习策略,或适应这些变化的学习策略。
学习一具有鲁棒性的策略的一种常用方法是最大化风险敏感目标。鲁棒性策略可能会牺牲许多环境变体上的性能,以便在少数情况下不会失败。
最近RL流行的另一种流行方法是学习一种能够适应当前环境的策略。为此,许多算法都学习了使用从该环境采样的轨迹为每个环境变体嵌入,该轨迹输入到策略中。然后,在测试时,当前轨迹可用于计算当前环境的嵌入,从而实现策略的自动调整。

posted @ 2019-02-19 09:45  blog_hfg  阅读(235)  评论(0)    收藏  举报