RL2

动物只需几次试验即可学习新的任务,这可以从他们之前对世界的了解中获益。本文旨在弥合这一差距。我们建议将其表示为递归神经网络(RNN)并从数据中学习,而不是设计“快速”强化学习算法。

我们在本文中采用了不同的方法,而不是手工设计特定领域的强化学习算法:我们将agent本身的学习过程视为一个目标,可以使用标准强化学习算法进行优化。根据具体分布对所有可能的MDP求平均值,这反映了我们想要提取给代理商的先验。我们将代理构建为递归神经网络,除了正常接收的观察之外,还接收过去的奖励,动作和终止标志作为输入。此外,它的内部状态在episodes中保留,因此它具有在其自己的隐藏激活中进行学习的能力。因此,学习的代理也充当学习算法,并且可以在部署时适应手头的任务。

posted @ 2019-08-26 18:34  blog_hfg  阅读(699)  评论(0)    收藏  举报