摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ICLR 2017 ABSTRACT 在具有动态元素的复杂环境中学习导航是开发AI智能体的重要里程碑。在这项工作中,我们将导航问题表述为RL问题,并表明通过依靠利用多模式感官输入的额外辅助任务,可以显著提高数据效率和任务性能。特别是,我们
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Annual Review of Psychology, no. 1 (2017): 101-128 Abstract 我们回顾了RL的心理学和神经科学,在过去的二十年中,通过对简单学习和决策任务的综合实验研究,实现了重要的进步。但是,R
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 训练后的神经网络模型展现了从行为动物记录的神经活动的特征,可以通过对网络活动和连通性的系统分析来洞悉认知功能的电路机制。然而,与通常通过监督学习来训练网络的分级误差信号相反,动物通过RL从对确定动作的奖励反馈中学习。当最
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv: Learning, (2018) 尽管传感器的幅度和范围有限,动物仍会执行目标导向的行为。为了应对,他们探索环境并存储记忆,以维护对当前尚不可用的重要信息的估计(1)。最近,通过将RL算法与深度神经网络(2, 3)融合在一起
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! CogSci, (2017) ABSTRACT 近年来,深度RL系统在许多具有挑战性的任务领域中都获得了超出人类的性能。但是,此类应用的主要局限性在于它们对大量训练数据的需求。因此,当前的一个关键目标是开发能够快速适应新任务的深度RL方法
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:2007.04578v1 [cs.AI] 9 Jul 2020 Abstract 尽管深度RL模型显示出在最少的监督下解决各种任务的巨大潜力,但仍存在一些关键挑战,包括从有限的经验中快速学习,适应环境变化以及从单个任务中概括学
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 强大的人工智能(AI)的出现为神经科学定义了新的研究方向。迄今为止,这项研究主要集中于在诸如图像分类等任务中使用监督学习训练的深度神经网络。但是,目前AI工作还有另一个领域受到神经科学家的关注较少,但可能具有深远的神经科
阅读全文
摘要:强化学习中的经验回放(The Experience Replay in Reinforcement Learning)
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ICML 2020 Abstract 经验回放对于深度RL中的异策算法至关重要,但是在我们的理解上仍然存在很大差距。因此,我们对Q学习方法中的经验回放进行了系统且广泛的分析,重点是两个基本属性:回放容量和学习更新与所收集经验的比率(回放率
阅读全文
摘要:在本章中大家将接触一些超出本书范围的话题,但是我们认为这些话题对于强化学习的未来非常重要。很多话题会超出我们所熟知的知识范围,并且有些会把我们带出马尔可夫决策过程(MDP)框架。 17.1 广义价值函数和辅助任务 不管在这种类似于价值函数的预测过程中,我们累加的是什么信号,我们都称其为这种预测的累积
阅读全文
摘要:神经科学是对神经系统的多学科研究的总称,主要包括:如何调节身体功能,如何控制行为,由发育、学习和老化所引起的随着时间的变化,以及细胞和分子机制如何使这些功能成为可能。强化学习的最令人兴奋的方面之一是来自神经科学的越来越多的证据表明,人类和许多其他动物的神经系统实施的算法和强化学习算法在很多方面是一一
阅读全文
摘要:强化学习与心理学理论之间的一些对应关系并不令人感到惊讶,因为强化学习的发展受到了心理学理论的启发。 强化学习是从人工智能研究者或工程师的角度探索理想化的情况,目的是用有效的算法解决计算问题,而不是复制或详细解释动物如何学习。因此,我们描述的一些对应关系将在各自领域中独立出现的想法联系起来。我们相信这
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:1710.02298v1 [cs.AI] 6 Oct 2017 (AAAI 2018) Abstract 深度强化学习社区对DQN算法进行了一些独立的改进。但是,尚不清楚这些扩展中的哪些是互补的,是否可以有效地组合。本文研究了
阅读全文
摘要:DQN Adventure: from Zero to State of the Art
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Received May 14, 2018; revised June 28, 2018; accepted July 5, 2018.This work was supported by the National Institutes
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:2007.08794v1 [cs.LG] 17 Jul 2020 Abstract RL算法根据经过多年研究手动发现的几种可能规则之一来更新智能体的参数。从数据中自动发现更新规则可能会导致效率更高的算法,或者更适合特定环境的算
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 1 DeepMind, London, UK2 University College London, London, UK3 Princeton University, Princeton, NJ, USA*Correspondence:
阅读全文
摘要:在生物和人工系统的学习研究之间,已经有富有成果的概念和想法流。Bush and Mosteller,Rescorla and Wagner首先在生物中开发的学习规则启发了许多早期的工作,从而导致了针对人工系统的强化学习(RL)算法的开发。最近,为在人工智能体中学习而开发的时序差分RL为解释多巴胺神经元的活性提供了基础框架。
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:1902.08102v1 [stat.ML] 21 Feb 2019 Abstract 我们通过递归估计回报分布的统计量,提供了一个统一的框架,用于设计和分析分布强化学习(DRL)算法。我们的主要见识在于,可以将DRL算法分解
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:1707.06887v1 [cs.LG] 21 Jul 2017 In International Conference on Machine Learning (2017). Abstract 在本文中,我们争论了价值分布的
阅读全文