Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
CoRL 2022
Abstract
出于安全考虑,自动驾驶车辆的大规模部署一直被推迟。一方面,全面的场景理解是必不可少的,缺乏这一点会导致对罕见但复杂的交通情况的脆弱性,例如未知物体的突然出现。然而,从全局环境中进行推理需要访问多种类型的传感器并充分融合多模态传感器信号,这是很难实现的。另一方面,学习模型中缺乏可解释性也阻碍了无法验证的故障原因的安全性。在本文中,我们提出了一个安全增强的自主驾驶框架,名为可解释传感器融合Transformer (InterFuser),用于全面处理和融合来自多视图传感器的信息,以实现全面的场景理解和对抗性事件检测。此外,中间可解释特征是从我们的框架中生成的,它提供了更多的语义,并被用来更好地将动作约束在安全集合内。我们对CARLA基准进行了广泛的实验,其中我们的模型优于先前的方法,在公共CARLA排行榜上排名第一。我们的代码将在https://github.com/opendilab/InterFuser中可获取。
Keywords: Autonomous driving, sensor fusion, transformer, safety
1 Introduction
最近,自动驾驶领域取得了迅速进展,但在公共道路上可扩展和实际部署自动驾驶车辆仍远不可行。他们的无能主要表现在高交通密度场景中,决策过程中涉及大量障碍物和动态对象。在这些情况下,当前部署的系统可能表现出不正确或意外的行为,导致灾难性事故[1, 2]。虽然许多因素导致了此类安全问题,但其中两个主要挑战是:1)如何识别长尾分布的罕见不良事件,例如路旁突然出现行人和闯红灯的车辆,这需要更好地理解多模式多视图传感器输入的场景;2) 如何验证决策过程,换言之,识别系统的运行/故障条件和故障原因,这需要决策系统的可解释性。
安全可靠的驾驶需要全面了解现场情况。然而,单个传感器通常不能提供足够的信息来感知驾驶场景。单图像方法很难从多个角度捕捉周围环境,无法提供场景的3D测量,而单激光雷达方法无法考虑交通灯等语义信息。尽管现有的工作融合了来自多个传感器的信息,但它们要么通过局部假设匹配图像空间和LiDAR投影空间之间的几何特征[3, 4],要么简单地连接多个传感器特征[5, 6]。多模态特征之间的交互和关系很少建模,例如多个动态智能体和交通灯之间的交互,或者不同视图和模态中的特征。为了鼓励在全局上下文中进行推理,使用了Transformer[7]的注意力机制。最近的TransFuser[8]通过多级CNN-transformer架构采用内部特征传播和聚合,以融合双模输入,这损害了传感器的可扩展性,并且仅限于LiDAR和单视图图像之间的融合。在本文中,我们采用一级架构来有效地融合来自多模态多视图传感器的信息,并取得显著的改进。如图1所示,我们将LiDAR输入和多视图图像(左、前、右和焦点)视为补充输入,以实现全面的全场景理解。
另一方面,由于缺乏对控制信号生成方式的解释性,现有的端到端驱动方法几乎没有安全保障机制。为了应对这一挑战,人们努力验证神经网络的运行状况,而不是直接理解模型[9, 10, 11]。尽管这些方法有助于为不同的条件选择不同的模型,但仍然缺乏对故障原因的反馈,无法进一步改进。受人类信息收集过程的启发[12],除了生成动作外,我们的模型还输出中间可解释特征,我们称之为安全思维图。如图1所示,安全思维图提供了周围物体和交通标志的信息。揭示了感知和决策的过程,我们的模型是可改进的,有明确的故障条件和原因。此外,通过利用该中间可解释信息作为安全约束启发式,我们可以将动作约束在安全动作集中,以进一步提高驾驶安全性。
在本文中,我们提出了一个称为可解释传感器融合Transformer (InterFuser)的安全增强驾驶框架,其中融合了来自多模态多视图传感器的信息,并通过提供中间可解释特征作为安全约束启发式来增强驾驶安全性。我们的贡献有三方面:
- 我们提出了一种新的可解释传感器融合Transformer (InterFuser),以鼓励在不同的模式和视图中进行全局上下文感知和推理。
- 我们的框架通过输出模型的中间特征并在安全集合中约束动作,增强了端到端驱动的安全性和可解释性。
- 我们在复杂和对抗性城市场景下的几个CARLA基准测试中实验验证了我们的方法。我们的模型优于以往的方法,在公共CARLA排行榜上排名第一。
2 Related work
End-to-end autonomous driving in urban scenarios (续) 因此,研究人员开发了强化学习(RL)智能体来与模拟环境交互。潜在DRL[18]通过训练变分自动编码器,从自顶向下的视图图像生成中间特征嵌入。通过上述模仿技巧,Roach[19]将基于RL的特权模型训练为专家智能体,为IL智能体提供演示。Toromanoff等人[6]建议使用语义信息监督的隐藏状态作为RL策略的输入。
Transformer model in vision comprehension
Safe and interpretable driving
3 Method
3.1 Input and Output Representations
Input representations
Output representations
3.2 Model architecture
Backbone
Transformer encoder
Transformer decoder
Prediction headers
Loss Function
3.3 Safety Controller
4 Experiments
4.1 Experiment Setup
4.2 Comparison to the state of the art
4.3 Ablation study
4.4 Visualization
5 Limitation
6 Conclusion