摘要:探索使用进化策略(ES)(一种黑盒优化算法)来替代流行的基于MDP的RL技术(例如Q学习和策略梯度)
阅读全文
摘要:动态规划(DP)是一类优化方法,在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。对于强化学习问题,传统的DP算法的作用有限。其原因有二:一是完备的环境模型只是一个假设
阅读全文
摘要:在强化学习所有的思想中,时序差分(TD)学习无疑是最核心、最新颖的思想。时序差分学习结合了蒙特卡洛方法和动态规划方法的思想。
阅读全文
摘要:蒙特卡洛算法仅仅需要经验,即从真实或者模拟的环境交互中采样得到的状态、动作、收益的序列。从真实经验中进行学习是非常好的,因为它不需要关于环境动态变化规律的先验知识,却依然能够达到最优的行为。从模拟经验中学习也是同样有效的,尽管这是需要一个模型,但这个模型只需要能够生成状态转移的一些样本,而不需要像动
阅读全文
摘要:在这一章中,我们将正式介绍有限马尔可夫决策过程(有限MDP),这也是本书后面要试图解决的问题。这个问题既涉及"评估反馈"(如前面介绍的赌博机问题),又涉及"发散联想",即在不同情境下选择不同的动作。MDP是序列决策的经典形式化表达,其动作不仅影响当前的即时收益,还影响后续的情况(又称状态)以及未来的
阅读全文
摘要:资格迹机制的核心是一个短时记忆向量,资格迹zt ∈ Rd,以及与之相对的长时权重向量wt ∈ Rd。这个方向核心的思想是,当参数wt的一个分量参与计算并产生一个估计值时,对应的zt的分量会骤然升高,然后逐渐衰减。在迹归零前,如果发现了非零的时序差分误差,那么相应的wt的分量就可以学习。迹衰减参数λ
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ICML, pp.507-517, (2020) Abstract 在过去的十年中,Atari游戏一直是RL社区的长期基准。此基准被提出以测试RL算法的通用能力。先前的工作在该系列的许多游戏中表现出色,但在一些最具挑战性的游戏中却表现很差
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! [Submitted on 9 May 2017 (v1), last revised 31 Oct 2020 (this version, v2)] Abstract 策略迭代(PI)是策略评估和改进的递归过程,用于解决最优决策/控制问
阅读全文
摘要:MODEL BASED REINFORCEMENT LEARNING FOR ATARI
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Cognitive Computation, no. 2 (2018): 296-306 Abstract 决策是智能主体(例如人形机器人和无人飞行器)的基本能力。在决策过程中,智能体可以通过RL来改进与动态环境交互的策略。许多最新的RL
阅读全文
摘要:摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract Q学习是一种技术,用于基于对使用非最优策略控制的系统的观察来计算受控马尔可夫链的最优策略。事实证明,它对于具有有限状态和动作空间的模型有效。本文建立了具有通用状态空间和通用动作空间的连续时间模型的Q学习与非线性控制
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Current biology : CB, no. 11 (2020) 为了产生适应性行为,动物必须从与环境的交互中学习。描述控制该学习过程的算法以及它们如何在大脑中实现是神经科学的主要目标。一百多个世纪以前,Thorndike,Pavl
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! AAAI 2019 Best Paper Abstract RL中大量使用了有限视野的前瞻策略,并显示出令人印象深刻的经验性成功。通常,前瞻策略是通过特定的规划方法(例如,蒙特卡洛树搜索)(例如,在AlphaZero中(Silver et
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Journal of Artificial Intelligence Research, (2018) Abstract ALE是一个评估平台,构成了在数十种Atari 2600游戏中构建具有通用能力的AI智能体所面临的挑战。它支持各种不
阅读全文
摘要:仅讨论部分RL仿真平台,下图参见AI2-THOR论文中的图: ALE是一个开源的Atari 2600模拟器。 TORCS:《The Open Racing Car Simulator》(TORCS) 是一款开源3D赛车模拟游戏。是在Linux操作系统上广受欢迎的赛车游戏。有50种车辆和20条赛道,简
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! FSR 2017 Conference 开源项目代码:https://github.com/Microsoft/AirSim Abstract 在现实世界中为自动驾驶飞行器开发和测试算法是一个昂贵且耗时的过程。同样,为了利用机器智能和深度
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ABSTRACT SAC是用于连续动作设置的最先进的RL算法,不适用于离散动作设置。但是,许多重要的设置都涉及离散动作,因此,在这里我们导出了适用于离散动作设置的SAC算法的替代版本。然后,我们证明了,即使没有任何超参数调整,它在Atar
阅读全文
摘要:Atari游戏介绍(ALE中集成的RL游戏环境)
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ICRA, (2017) AI2-THOR开源框架:https://ai2thor.allenai.org/ Abstract 深度强化学习(DRL)的两个较少解决的问题是:(1) 缺乏对新目标的泛化能力,(2) 数据效率低下,即该模型需
阅读全文