Universal Value Function Approximators(通用价值函数近似器)
Universal Value Function Approximators(通用价值函数近似器)
之前有看过hindsight experience replay(HER)论文,其中用到的核心思想来自于这篇Universal Value Function Approximators(通用价值函数近似器),因此准备回过头好好看看这篇文章。
摘要:价值函数是强化学习系统的一个核心组成部分。其主要思想是构建一个单一的函数近似器V(s;θ),使用参数θ估计任何状态s的长期奖励。在本文中,我们介绍了通用价值函数近似器(UVFAs)V(s,g;θ),它不仅适用于状态s,也适用于目标g。我们开发了一种高效的UVFAs监督学习技术,通过将观测值分解为状态和目标的独立嵌入向量,然后学习从s和g到这些分解嵌入向量的映射。我们展示了这一技术如何被纳入强化学习算法中,该算法仅从观察到的奖励中更新UVFAs。最后,我们证明UVFA可以成功地推广到以前未见过的目标。