Deep Reinforcement Learning for Autonomous Driving: A Survey
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

IEEE Trans. Intell. Transp. Syst. 23(6): 4909-4926 (2022)
Abstract
随着深度表示学习的发展,强化学习(RL)领域已经成为一个强大的学习框架,现在能够在高维环境中学习复杂的策略。本综述总结了深度强化学习(DRL)算法,并提供了已采用(D)RL方法的自动驾驶任务的分类,同时解决了自动驾驶智能体在现实世界部署中的关键计算挑战。它还描绘了相关但不是经典RL算法的相邻领域,例如行为克隆、模仿学习、逆强化学习。讨论了模拟器在训练智能体中的作用,以及验证、测试和鲁棒化RL中现有解决方案的方法。
Index Terms——Deep reinforcement learning, Autonomous driving, Imitation learning, Inverse reinforcement learning, Controller learning, Trajectory optimisation, Motion planning, Safe reinforcement learning.

I. INTRODUCTION
自动驾驶(AD)1系统由多个感知级别的任务组成,由于深度学习架构,这些任务现在已经实现了高精度。除了感知之外,自动驾驶系统还包含多个任务,经典的监督学习方法不再适用。首先,当对智能体动作的预测改变了从自动驾驶智能体运行的环境中接收到的未来传感器观察结果时,例如在市区优化驾驶速度的任务。其次,监督信号,例如碰撞时间(TTC)、与智能体最佳轨迹相关的横向误差,代表智能体的动态,以及环境中的不确定性。此类问题需要定义要最大化的随机成本函数。第三,智能体需要学习环境的新配置,以及在其环境中驾驶时预测每个时刻的最佳决策。考虑到观察智能体和环境的独特配置的数量,这代表了一个高维空间,这组合起来很大。在所有这些场景中,我们的目标是解决一个顺序决策过程,该过程在强化学习(RL)的经典设置下形式化,其中智能体需要学习和表示其环境,并在每个瞬间做出最佳行为[1]。最优动作称为策略。
在这篇评论中,我们涵盖了强化学习的概念,RL是一种很有前途的解决方案的任务分类,特别是在驾驶策略、预测感知、路径和运动规划以及低级控制器设计领域。我们还将回顾重点放在RL在自动驾驶领域的不同现实世界部署上,扩展了我们的会议论文[2],因为它们的部署尚未在学术环境中进行回顾。最后,我们通过展示应用当前RL算法(如模仿学习、深度Q学习等)时的关键计算挑战和风险来激励用户。我们还从图2中的出版物趋势中注意到,将RL或DRL应用于自动驾驶或自动驾驶领域是一个新兴领域。这是由于最近使用RL/DRL算法领域,在实施和部署中留下了多个现实世界的挑战。我们在VI中提出了未解决问题。
这项工作的主要贡献可以总结如下:
- 自动驾驶社区中RL背景的自包含概述,因为它并不为人所知。
- 将RL用于不同的自动驾驶任务的详细文献回顾。
- 讨论RL应用于现实世界自动驾驶的主要挑战和机遇。
本文的其余部分安排如下。第II节概述了典型自动驾驶系统的组件。第III节介绍了强化学习并简要讨论了关键概念。第IV节讨论了在基本RL框架之上更复杂的扩展。第V节概述了针对自动驾驶问题的RL应用。第VI节讨论了为现实世界的自动驾驶系统部署RL的挑战。第VII节以一些最后的评论结束了本文。

II. COMPONENTS OF AD SYSTEM
图1包含一个AD系统的标准模块,展示了从传感器流到控制驱动的流水线。现代自动驾驶系统中的传感器架构尤其包括多组摄像头、雷达和激光雷达,以及用于绝对定位的GPS-GNSS系统和提供车辆在太空中的3D姿态的惯性测量单元(IMU)。
感知模块的目标是创建环境状态的中间级表征(例如所有障碍物和智能体的鸟瞰图),稍后将由最终产生驾驶策略的决策系统使用。该状态将包括车道位置、可行驶区域、智能体(例如汽车和行人)的位置、交通信号灯的状态等。感知中的不确定性会传播到信息链的其余部分。强大的传感对于安全至关重要,因此使用冗余源可提高检测的信心。这是通过结合几个感知任务来实现的,如语义分割[3][4]、运动估计[5]、深度估计[6]、污染检测[7]等,这些任务可以有效地统一为一个多任务模型[8][9]。
A. Scene Understanding
该关键模块将从感知模块获得的感知状态的抽象中级表示映射到高级动作或决策模块。从概念上讲,这个模块分为三个任务:场景理解、决策和规划,如图1所示,模块旨在提供对场景的更高层次的理解,它建立在检测或定位的算法任务之上。通过融合异构传感器源,它旨在随着内容变得更加抽象而稳健地泛化到情况。这种信息融合为决策组件提供了一个通用和简化的上下文。
融合提供与传感器无关的环境表示,并模拟传感器噪声和跨多种模式的检测不确定性,例如LIDAR、相机、雷达、超声波。这基本上需要以有原则的方式对预测进行加权。
B. Localization and Mapping
映射是自动驾驶的关键支柱之一[10]。一旦绘制了一个区域,就可以在地图内定位车辆的当前位置。谷歌首次可靠的自动驾驶演示主要依赖于预先映射的区域的本地化。由于问题的规模,传统的映射技术通过语义目标检测得到增强,以实现可靠的消歧。此外,局部高清地图(HD地图)可用作目标检测的先验。
C. Planning and Driving policy
轨迹规划是自动驾驶流水线中的关键模块。给定来自高清地图或基于GPS的地图的路线级规划,需要此模块来生成引导智能体的运动级命令。
经典的运动规划忽略了动态和微分约束,同时使用了将智能体从源姿势移动到目标姿势所需的平移和旋转[11]。能够控制6自由度(DOF)的机器人智能体被称为是完整的,而可控自由度少于其总自由度的智能体被称为非完整智能体。基于Djisktra算法的A*算法等经典算法在自动驾驶的非完整情况下不起作用。快速探索随机树(RRT)[12]是通过随机采样和无障碍路径生成来探索配置空间的非完整算法。目前有多种版本的RRT用于自动驾驶流水线中的运动规划。
D. Control
控制器定义从预先确定的地图(如谷歌地图)或在每个路径点的相同值的专家驾驶记录获得的路径中每个点所需的速度、转向角和制动动作。相比之下,轨迹跟踪涉及随时间顺序查看路径点的车辆动力学的时间模型。
当前的车辆控制方法建立在经典的最优控制理论中,可以表示为在一组状态x(t)和控制动作u(t)上定义的成本函数
的最小化。控制输入通常在有限时间范围内定义,并限制在可行状态空间x ∈ Xfree[14]上。速度控制基于经典的闭环控制方法,例如PID(比例积分微分)控制器、MPC(模型预测控制)。PID旨在最小化由三个项构成的成本函数,即当前误差与比例项、过去误差与积分项的影响以及未来误差与导数项的影响。而MPC方法家族的目标是在跟踪指定路径的同时稳定车辆的行为[15]。这篇评论[16]为感兴趣的读者提供了关于控制器、运动规划和基于学习的方法的评论。最优控制和强化学习密切相关,其中最优控制可以被视为基于模型的强化学习问题,其中车辆/环境的动力学由明确定义的微分方程建模。开发了强化学习方法来处理随机控制问题以及具有未知奖励和状态转换概率的不适定问题。自动驾驶车辆随机控制是一个很大的领域,我们建议读者阅读[17]中作者关于该主题的综述。

III. REINFORCEMENT LEARNING
机器学习(ML)是计算机程序从经验中学习以提高其在指定任务中的性能的过程[18]。ML算法通常分为三大类之一:监督学习、无监督学习和强化学习(RL)。监督学习算法基于归纳推理,其中模型通常使用标记数据进行训练以执行分类或回归,而无监督学习包括应用于未标记数据的密度估计或聚类等技术。相比之下,在RL范式中,自主智能体通过与环境交互来学习提高其在分配任务中的性能。Russel和Norvig将智能体定义为"任何可以被视为通过传感器感知其环境并通过执行器作用于该环境的任何东西"[19]。专家并未明确告知RL智能体如何采取动作;而是通过奖励函数 R 评估智能体的性能。对于每个经历的状态,智能体选择一个动作,并根据其决策的有用性从其环境中偶尔获得奖励。智能体的目标是最大化在其生命周期内获得的累积奖励。逐渐地,智能体可以通过利用有关不同状态-动作对的预期效用(即预期未来奖励的折扣总和)的知识。强化学习的主要挑战之一是管理探索和开发之间的权衡。为了最大化它收到的奖励,智能体必须通过选择已知会导致高奖励的动作来利用其知识。另一方面,为了发现这些有益的动作,它必须冒险尝试新的动作,这可能会导致比当前对每个系统状态最有价值的动作更高的回报。换句话说,学习智能体必须利用它已经知道的东西来获得奖励,但它也必须探索未知的东西,以便在未来做出更好的动作选择。已经提出来管理这种权衡的策略示例包括ε-greedy和softmax。当采用普遍的ε-greedy策略时,智能体要么随机选择一个动作,概率为0 < ε < 1,要么贪婪地选择剩余概率为1 - ε的当前状态的最高价值动作。直觉上,当对问题环境知之甚少时,智能体应该在训练过程开始时进行更多探索。随着训练的进行,智能体可能会逐渐进行更多的开发而不是探索。RL智能体的探索策略设计是一个活跃的研究领域(参见例如[20])。
(略)
A. Value-based methods
Q-learning是最常用的强化学习算法之一。它是一种无模型的TD算法,可以学习对单个状态-动作对的效用的估计(公式2中定义的Q函数)。Q-learning已被证明可以收敛到概率为1的MDP的最优状态-动作价值,只要所有状态中的所有动作都被无限频繁地采样并且状态-动作价值离散地表示[23]。在实践中,如果为每个状态-动作对获得足够数量的样本,Q-learning将学习(接近)最优状态-动作价值。如果Q-learning智能体已经收敛到MDP的最优Q值并在此后贪婪地选择动作,它将收到与参数化为π*的价值函数计算的相同的期望折扣奖励总和(假设相同的任意初始起始状态用于两者)。实现Q-learning的智能体根据以下更新规则更新其 Q 值:

(略)
B. Policy-based methods
C. Actor-critic methods
D. Model-based (vs. Model-free) & On/Off Policy methods
E. Deep reinforcement learning (DRL)
IV. EXTENSIONS TO REINFORCEMENT LEARNING
本节介绍并讨论了多年来引入的基本单智能体RL范式的一些主要扩展。除了扩大RL算法的适用性外,这里讨论的许多扩展已经被证明可以提高复杂问题域中的可扩展性、学习速度和/或收敛性能。
A. Reward shaping
B. Multi-agent reinforcement learning (MARL)
C. Multi-objective reinforcement learning
在多目标强化学习(MORL)中,奖励信号是一个向量,其中每个分量代表不同目标的性能。MORL框架是为处理顺序决策问题而开发的,其中必须考虑相互冲突的目标函数之间的权衡。具有多个目标的现实世界问题的示例包括选择能源(燃料成本和排放之间的权衡)[57]和流域管理(发电、保持水库水位和供应饮用水之间的权衡)[58]。MORL问题的解决方案通常使用Pareto优势[59]的概念进行评估,而MORL算法通常寻求学习或逼近一组非支配解决方案。MORL问题可以适当地使用MDP或SG框架来定义,其方式类似于单目标问题。主要区别在于奖励函数的定义:多目标域中的奖励函数 R 不是返回单个标量值 r,而是返回一个向量 r,该向量由每个单独的目标 c ∈ C 的奖励组成。因此,一个正则MDP或SG通过修改奖励函数的返回, 可以扩展为多目标MDP (MOMDP)或多目标SG (MOSG)。有关MORL的更完整概述,请参阅本节中提供的简短摘要,感兴趣的读者可参考最近的调查[60][61]。
D. State Representation Learning (SRL)
状态表示学习是指特征提取和降维来表示状态空间,其历史取决于智能体的动作和环境。[62]中讨论了对SRL控制的完整回顾。在最简单的形式中,SRL将一个高维向量 ot 映射到一个小维潜在空间 st。逆运算将状态解码回原始观测值的估计值。然后智能体学习从潜在空间映射到动作。从不需要标签的意义上说,训练SRL链是无监督的。减少输入的维度有效地简化了任务,因为它消除了噪声并减小了域的大小,如[63]所示。SRL可以是一个简单的自动编码器(AE),尽管存在各种用于观察重建的方法,例如变分自编码器(VAE)或生成对抗网络(GAN),以及用于预测下一个状态的正模型或逆模型预测给定转换的动作。一个好的学习状态表示应该是马尔可夫;即它应该对所有必要的信息进行编码,以便能够仅基于当前状态选择一个动作,而不是任何先前的状态或动作[62][64]。
E. Learning from Demonstrations
从演示中学习(LfD)被人类用来在专家到学习者的知识传递过程中获得新技能。LfD对于奖励信号太稀疏或输入域太大而无法覆盖的初始探索很重要。在LfD中,智能体从演示中学习执行任务,通常以状态-动作对的形式,由专家提供,没有任何反馈奖励。然而,高质量和多样化的演示很难收集,导致学习次优策略。因此,仅从演示中学习可用于初始化具有良好或安全策略的学习智能体,然后可以进行强化学习以通过与环境交互来发现更好的策略。在最近的研究中,结合了演示和强化学习。AlphaGo [41]将搜索树与深度神经网络相结合,通过对人类专家玩过的记录游戏提供的状态-动作对进行监督学习来初始化策略网络。此外,价值网络被训练来判断板状态的可取性。通过自我对弈和强化学习,AlphaGo能够发现新的更强大的动作并从错误中吸取教训,从而实现超人的性能。最近,由同一团队开发的AlphaZero [65]提出了自我游戏模型的通用框架。AlphaZero完全使用强化学习和自我游戏进行训练,从完全随机游戏开始,不需要人类玩家的先验知识。AlphaZero从零开始自学如何掌握国际象棋、将棋和围棋游戏,在每种情况下都击败了世界冠军程序。在[66]中表明,给定初始演示,不需要显式探索,我们可以获得接近最优的性能。在[67]中提出了测量当前策略与优化专家策略之间的差异。DQfD [68]预先训练智能体并使用专家演示,方法是将它们添加到具有额外优先级的回放缓存中。此外,在[69]中提出了一种将演示学习和强化学习相结合的训练框架,用于快速学习智能体。接近最大化奖励函数的两种策略在行为上仍然存在很大差异。为了避免退化一个适合奖励但不适合原始行为的解决方案,作者[70]提出了一种方法,用于强制在奖励上学习的最优策略仍应与观察到的行为策略相匹配。行为克隆(BC)被用作监督学习,它根据专家提供的演示将状态映射到动作。另一方面,逆强化学习(IRL)是关于推断证明专家演示合理的奖励函数。IRL是在给定观察到的最优行为的情况下提取奖励函数的问题[71]。一个关键的动机是奖励函数提供了任务的简洁和健壮的定义。通常,IRL算法的运行成本可能很高,需要在成本估计到策略训练和评估之间的内部循环中进行强化学习。生成对抗模仿学习(GAIL)[72]引入了一种方法来避免这种昂贵的内循环。在实践中,GAIL训练一个与专家策略足够接近的策略来欺骗鉴别器。这个过程类似于GAN [73][74]。生成的策略必须与专家一样经过相同的MDP状态,否则鉴别器会发现差异。GAIL背后的理论是一个公式简化:定性地,如果IRL从演示到成本函数,RL从成本函数到策略,那么我们应该完全能够在一个公式中从演示到策略,同时避免成本函数估计。


V. REINFORCEMENT LEARNING FOR AUTONOMOUS DRIVING TASKS
可以应用RL的自动驾驶任务包括:控制器优化、路径规划和轨迹优化、运动规划和动态路径规划、为复杂导航任务开发高级驾驶策略、高速公路、交叉路口、合并和分割,通过从专家数据中进行逆强化学习来奖励学习,以预测行人、车辆等交通参与者的意图,最后学习确保安全和执行风险估计的策略。在讨论DRL在AD任务中的应用之前,我们简要回顾一下自动驾驶环境中的状态空间、动作空间和奖励方案。
A. State Spaces, Action Spaces and Rewards
为了成功地将DRL应用于自动驾驶任务,设计适当的状态空间、动作空间和奖励函数非常重要。Leurent et al. [75]对自动驾驶研究中使用的不同状态和动作表征进行了全面回顾。自动驾驶汽车常用的状态空间特征包括:ego车辆的位置、航向和速度,以及本车传感器视野范围内的其他障碍物。为了避免状态空间维度的变化,经常使用围绕ego车辆的Cartesian或Polar占用网格。这进一步增加了车道信息,例如车道编号(ego车道或其他),路径曲率,ego车辆的过去和未来轨迹,纵向信息,例如碰撞时间(TTC),最后是场景信息,例如作为交通法规和信号位置。
使用相机图像、激光雷达、雷达等原始传感器数据可以提供更精细的上下文信息,而使用压缩的抽象数据可以降低状态空间的复杂性。在这两者之间,2D鸟瞰图(BEV)等中级表征与传感器无关,但仍接近场景的空间组织。图4是自上而下视图的图示,显示了占用网格、过去和投影的轨迹,以及关于场景的语义信息,例如交通信号灯的位置。这种中间格式保留了道路的空间布局,而基于图形的表示则不能。一些模拟器提供这种视图,例如Carla或Flow(见表V-C)。
车辆策略必须控制许多不同的执行器。用于车辆控制的连续值执行器包括转向角、油门和制动器。其他致动器(例如齿轮变化)是离散的。为了降低复杂性并允许应用仅与离散动作空间(例如DQN)一起工作的DRL算法,可以通过将连续执行器(例如转向角、油门和制动器)的范围划分为相等大小的bin(参见第VI-C节)。在对数空间中进行离散化被提出,因为在实践中选择的许多转向角都接近中心[76]。然而,离散化确实有缺点。如果动作之间的步长值太大,它可能会导致不稳定或不稳定的轨迹。此外,在为执行器选择bin数时,需要在具有足够的离散步骤以实现平滑控制与没有太多步骤以使动作选择变得过于昂贵进行评估之间进行权衡。作为离散化的替代方案,执行器的连续值也可以由直接学习策略的DRL算法(例如DDPG)处理。时间抽象选项框架[77]也可用于简化选择动作的过程,其中智能体选择选项而不是低级动作。这些选项代表了一个子策略,它可以在多个时间步骤上扩展一个原始操作。
为自动驾驶的DRL智能体设计奖励函数仍然是一个悬而未决的问题。AD任务的标准示例包括:前往目的地的距离[78]、ego车辆的速度[78]-[80]、使ego车辆保持静止[81]、与其他道路使用者或场景对象的碰撞[78][79]、人行道上的违规行为[78]、车道保持、保持舒适和稳定性,同时避免极端加速、制动或转向[80][81],并遵守交通规则[79]。
B. Motion Planning & Trajectory optimization
运动规划是确保目标点和目的地点之间存在路径的任务。这对于在通常用语义信息增强的先前地图上规划车辆的轨迹是必要的。动态环境中的路径规划和不断变化的车辆动力学是自动驾驶中的一个关键问题,例如在十字路口协商通过的权利[87],并入高速公路。作者最近的工作[89]包含各种交通参与者的真实世界运动,在不同的交互式驾驶场景中观察到。最近,作者展示了使用全尺寸自动驾驶汽车[90]将DRL (DDPG)应用于AD。该系统首先进行了模拟训练,然后使用车载计算机进行了实时训练,并且能够学会沿着车道行驶,成功地在250米的路段上完成了真实世界的试验。已经提出了基于模型的深度RL算法,用于直接从原始像素输入学习模型和策略[91][92]。在[93]中,深度神经网络已被用于在模拟环境中生成数百个时间步长的预测。RL也适用于控制。在[94]中将LQR/iLQR等经典最优控制方法与RL方法进行了比较。经典的RL方法用于在随机设置中执行优化控制,例如线性状态下的线性二次调节器(LQR)和非线性状态下的迭代LQR (iLQR)。[95]中最近的一项研究表明,对策略网络的参数进行随机搜索的性能与LQR一样好。
C. Simulator & Scenario generation tools
自动驾驶数据集解决了监督学习设置,其中包含用于各种模式的图像、标签对的训练集。强化学习需要一个可以恢复状态-动作对的环境,同时分别对车辆状态、环境以及环境和智能体的运动和动作的随机性进行建模。各种模拟器被积极用于训练和验证强化学习算法。表V-C总结了各种能够模拟摄像机、激光雷达和雷达的高保真感知模拟器。一些模拟器还能够提供车辆状态和动态。读者可以在[105]中获得对自动驾驶社区中使用的传感器和模拟器的完整回顾。学习驾驶策略在模拟环境中进行压力测试,然后在现实世界中进行昂贵的评估。在[106]中提出了多保真强化学习(Multi-fidelity reinforcement learning, MFRL)框架,其中有多个模拟器可用。在MFRL中,使用一系列具有更高保真度的模拟器来表示状态动态(以及因此计算成本),从而能够训练和验证RL算法,同时使用一个远程控制的车辆用较少的昂贵的现实世界样本为现实世界找到接近最优的策略。CARLA Challenge [107]是基于Carla模拟器的AD竞赛,具有美国国家公路交通安全管理局报告[108]中描述的碰撞前场景。这些系统在关键场景中进行评估,例如:ego车辆失去控制、ego车辆对看不见的障碍物做出反应、变道以避开慢速领先车辆等。智能体的分数是根据在不同线路中行驶的总距离以及因违规而打折的总分来评估的。
D. LfD and IRL for AD applications
[109][110]中关于驾驶汽车的行为克隆(BC)的早期工作提出了学习形式演示(LfD)的智能体,它试图模仿专家的行为。BC通常被实现为监督学习,因此,BC很难适应新的、看不见的情况。在[111][112]中提出了一种用于在自动驾驶汽车领域中端到端学习卷积神经网络的架构。CNN经过训练,可以将来自单个前置摄像头的原始像素直接映射到转向命令。使用来自人类/专家的相对较小的训练数据集,系统学习在有或没有车道标记的地方道路和高速公路上驾驶交通。网络学习成功检测道路的图像表示,而无需经过明确训练。[113]的作者建议使用最大熵逆RL的人类驾驶员专家演示来学习舒适的驾驶轨迹优化。[114]的作者使用DQN作为IRL中的细化步骤来提取奖励,以努力学习类似人类的变道行为。

VI. REAL WORLD CHALLENGES AND FUTURE PERSPECTIVES
在本节中,将介绍和讨论针对现实世界自动驾驶进行强化学习的挑战以及解决这些挑战的相关研究方法。
A. Validating RL systems
Henderson等人[115]描述了验证强化学习方法的挑战,重点是PPO、DDPG和TRPO等连续控制算法的策略梯度方法,以及复现基准。他们用真实的例子证明,实现通常有不同的代码库和不同的超参数值,并且估计前 k 次部署的无原则方法可能导致对强化学习算法的性能的不连贯的解释,以及更多关于它们泛化的程度。作者得出结论,可以在定义明确的通用设置或实际任务上进行评估。[116]中的作者提出在高保真的模拟器中自动生成具有挑战性和罕见的驾驶场景。这些对抗场景是通过参数化道路上行人和其他车辆的行为来自动发现的。此外,表明通过将这些场景添加到模仿学习的训练数据中,安全性得到了提高。
B. Bridging the simulation-reality gap
模拟到现实世界的迁移学习是一个活跃的领域,因为模拟是具有完美注释的大型廉价数据源。作者[117]通过在特征级和像素级执行从模拟到现实的域适应,训练机器人手臂抓住现实世界中的物体。基于视觉的抓取系统实现了可比的性能,实际样本减少了50倍。[118]中的作者在训练期间随机化了模拟器的动态。由此产生的策略能够推广到不同的动态,而无需对真实系统进行重新训练。在自动驾驶领域,作者[119]使用驾驶环境的模拟真实翻译图像训练A3C智能体。之后,在真实世界的驾驶数据集上评估训练有素的策略。
[120]中的作者解决了在模拟中执行模仿学习的问题,该模拟可以很好地转移到来自现实世界的图像。他们通过模拟和真实世界图像之间的无监督域转换来实现这一点,这使得仅使用来自模拟域的基本事实来学习在真实世界域中的转向预测。作者指出,模拟训练集中的图像与未标记的真实世界图像集中的图像之间没有成对的对应关系。类似地,[121]执行域自适应以将真实世界图像映射到模拟图像。与sim-to-real方法相比,它们在真实场景中部署智能体时处理现实差距,通过使真实相机流适应合成模态,从而将真实图像的不熟悉或看不见的特征映射回模拟环境和状态。智能体已经学习了模拟策略。
C. Sample efficiency
动物通常能够在几次试验中学习新任务,这得益于它们对环境的先验知识。然而,强化学习的关键挑战之一是样本效率。学习过程需要太多样本来学习合理的策略。当收集有价值的经验成本高昂甚至有风险时,这个问题就会变得更加明显。在机器人控制和自动驾驶的情况下,由于在典型设置中发现延迟和稀疏的奖励,以及在大状态空间中观察的不平衡分布,样本效率是一个难题。
Reward shaping通过设计更频繁的奖励函数来鼓励智能体从更少的样本中更快地学习,使智能体能够学习中间目标。[122]中的作者设计了第二个"创伤"重播记忆,其中仅包含碰撞情况,以便在每个训练步骤中汇集积极和消极的经验。
IL boostrapped RL: 如果智能体首先从专家提供的roll-out中离线学习初始策略,执行模仿学习,则可以实现更高的效率。之后,智能体可以通过在与环境交互时应用RL来进行自我改进。
带经验回放的Actor Critic (ACER)[123]是一种高效采样策略梯度算法,它利用回放缓存,使其能够使用每条采样经验执行多个梯度更新,以及信任区域策略优化(TRPO)方法。
Transfer learning是另一种提高样本效率的方法,它可以重用先前训练的源任务策略来初始化目标任务的学习。[124]中提出的策略组合建议组合先前学习的基础策略,以便能够将它们重用于新任务,从而更快地学习新策略。[125]中介绍了关于RL中迁移学习的综述。多保真强化学习(MFRL)框架[106]展示了转移启发式方法以指导高保真模拟器中的探索,并以较少的真实世界样本为真实世界找到接近最优的策略。[126]中的作者将学到的处理模拟交叉路口的策略转移到DQN智能体之间的真实世界示例中。
Meta-learning算法使智能体能够从少量经验中快速适应新任务并学习新技能,并受益于他们对世界的先验知识。[127]的作者通过在一组相互关联的任务上训练循环神经网络来解决这个问题,其中网络输入包括除了在前一个时间步中收到的奖励之外选择的动作。因此,智能体被训练来学习动态地利用问题的结构并通过调整其隐藏状态来解决新问题。[128]中提出了一种用于设计RL算法的类似方法。它不是设计一个"快速"的强化学习算法,而是表示为一个循环神经网络,并从数据中学习。在[129]中提出的模型不可知元学习(MAML)中,元学习器试图为神经网络的参数找到一个初始化,只需使用几个示例就可以快速适应新任务。Reptile [130]包括一个类似的模型。作者[131]提出了简单的基于梯度的元学习算法。
Efficient state representations: [132]中提出的世界模型使用VAE学习环境的压缩空间和时间表示。进一步从压缩状态表示中直接获得紧凑和简单的策略。
D. Exploration issues with Imitation
在模仿学习中,智能体利用专家提供的轨迹。但是,专家遇到的状态分布通常不会涵盖受过训练的智能体在测试期间可能遇到的所有状态。此外,模仿假设动作是独立且同分布的(i.i.d.)。一种解决方案包括使用数据聚合(DAgger)方法[133],其中执行端到端学习策略,提取的观察动作对再次由专家标记,并聚合到原始专家观察动作数据集。因此,从参考和训练的策略中迭代地收集训练示例可以探索更有价值的状态并解决这种缺乏探索的问题。在基于搜索的结构化预测(SEARN)[133]的工作之后,随机混合迭代学习(SMILE)在多次迭代中训练随机静止策略,然后利用训练策略的几何随机混合。在标准的模仿学习场景中,要求演示者覆盖足够多的状态,以避免在测试过程中出现看不见的状态。这种约束代价高昂并且需要频繁的人工干预。最近,Chauffeurnet [134]证明了模仿学习的局限性,即使3000万个状态-动作样本也不足以学习将鸟瞰图像(状态)映射到控制(动作)的最优策略。作者建议使用模拟示例,这些示例引入了扰动、更高的场景多样性,例如碰撞和/或偏离道路。特征网络包括一个智能体RNN,它在每次迭代时输出路点、智能体框位置和航向。作者[135]确定了模仿学习的局限性,并使用输入原始图像上的ego车辆和相邻车辆的2d和3d位置来端到端训练DNN,以同时预测ego车辆动作以及相邻车辆轨迹。
E. Intrinsic Reward functions
在诸如游戏之类的受控模拟环境中,将明确的奖励信号连同其传感器流一起提供给智能体。然而,在现实世界的机器人和自动驾驶推导中,设计一个好的奖励函数是必不可少的,这样可以学习所需的行为。最常见的解决方案是奖励塑造[136],包括向智能体提供额外精心设计的奖励,以鼓励优化到最优策略的方向。正如本文前面已经指出的,奖励可以通过逆RL (IRL)[137] 来估计,这取决于专家的演示。在没有明确的奖励塑造和专家演示的情况下,智能体可以使用内在奖励或内在动机[138]来评估他们的行为是否良好。[139]的作者将好奇心定义为智能体在自监督逆动力学模型学习的视觉特征空间中预测其自身行为结果的能力中的错误。在[140]中,智能体从其经验中学习下一个状态预测模型,并将预测的误差用作内在奖励。这使该智能体能够确定什么可能是有用的行为,即使没有外在奖励。
F. Incorporating safety in DRL
在直接训练后在真实环境中部署自动驾驶汽车可能很危险。这里介绍了将安全性纳入DRL算法的不同方法。对于基于模仿学习的系统,Safe DAgger [141]引入了一种安全策略,该策略学习预测最初使用监督学习方法训练的主要策略所产生的错误,而无需查询参考策略。一个额外的安全策略将状态的部分观察和主要策略作为输入,并返回一个二值标签,指示主要策略是否可能在不查询的情况下偏离参考策略。[142]的作者解决了自动驾驶多智能体强化学习中的安全问题,其中在其他驾驶员或行人的意外行为之间保持平衡,不要过于防御,从而实现正常的交通流量。在保持硬约束以保证驾驶安全的同时,将问题分解为实现舒适驾驶和轨迹规划的期望的策略组合。[143]中结合了用于控制的深度强化学习算法,如DDPG和基于安全的控制,包括广泛用于机器人路径规划的人工势场方法。使用TORCS环境,DDPG首先用于在稳定熟悉的环境中学习驾驶策略,然后结合策略网络和基于安全的控制来避免碰撞。结果发现,DRL和基于安全的控制相结合在大多数情况下表现良好。为了使DRL能够摆脱局部最优,加快训练过程并避免危险情况或事故,[144]中提出了面向生存的强化学习(SORL)模型,其中通过对自主模型进行建模,生存优于最大化总奖励。将问题作为受约束的MDP并引入负规避函数以从先前的失败中学习。SORL模型被发现对奖励函数不敏感,可以使用不同的DRL算法,如DDPG。此外,感兴趣的读者可以在[145]中找到关于安全强化学习的综合调查。
G. Multi-agent reinforcement learning
自动驾驶本质上是一项多智能体任务;除了由智能体控制的ego车辆外,在模拟和现实世界的自动驾驶环境中还会出现许多其他参与者,例如行人、骑自行车的人和其他车辆。因此,持续发展显式多智能体方法来学习驾驶自动驾驶汽车是未来重要的研究方向。几种先前的方法已经使用MARL视角解决了自动驾驶问题,例如[142][146]-[149]。
MARL技术可能非常有益的一个重要领域是自动驾驶车辆组之间的高级决策和协调,例如高速公路场景中的超车[149],或在没有信号控制的情况下通过交叉路口。MARL方法可能受益的另一个领域是开发对抗性智能体,以在部署前测试自动驾驶策略[148],即在模拟中控制其他车辆的智能体通过不规律的行为来学习暴露自动驾驶策略行为中的弱点或违反交通规则。最后,如前所述,MARL方法可能在制定自动驾驶安全策略方面发挥重要作用[142]。

VII. CONCLUSION
在现实世界的自动驾驶应用中,强化学习仍然是一个活跃的新兴领域。尽管有一些成功的商业应用,但可用的文献或大规模公共数据集却很少。因此,我们有动力将RL应用程序形式化和组织用于自动驾驶。自动驾驶场景涉及交互智能体,需要适合RL的协商和动态决策。但是,要获得成熟的解决方案,需要解决许多挑战,我们将对此进行详细讨论。在这项工作中,提出了详细的强化学习理论,以及关于将RL应用于自动驾驶任务的综合文献调查。
挑战、未来的研究方向和机遇将在第VI节讨论。这包括:验证基于RL的系统的性能、模拟与现实的差距、样本效率、设计良好的奖励函数、将安全性纳入自主智能体的决策RL系统。
强化学习结果通常难以重现,并且对超参数选择高度敏感,通常不会详细报告。研究人员和从业者都需要有一个可靠的起点,在那里实现、记录和测试众所周知的强化学习算法。表VI-G涵盖了这些框架。
开发针对自动驾驶问题的显式多智能体强化学习方法也是一个重要的未来挑战,迄今为止尚未受到很多关注。MARL技术有可能使自动驾驶汽车组之间的协调和高级决策更容易,并为测试和验证自动驾驶政策的安全性提供新的机会。
此外,RL算法的实现对于研究人员和从业者来说是一项具有挑战性的任务。这项工作展示了众所周知且活跃的开源RL框架的示例,这些框架提供了有据可查的实现,从而有机会使用、评估和扩展不同的RL算法。最后,我们希望这篇综述论文能鼓励进一步的研究和应用。

浙公网安备 33010602011771号