多传感器后融合技术

1.多传感器后融合技术

后融合技术：每个传感器都独立地输出探测数据信息，在对每个传感器的数据信息进行处理后，再把最后的感知结果进行融合汇总。

图1.后融合结构

2.1 Ulm自动驾驶：模块化的融合方法

Ulm大学自动驾驶项目提出了一种模块化的、传感器独立的融合方法，允许高效的传感器替换，通过在网络映射、定位和追踪等关键模块中使用多种传感器来确保信息冗余性。该算法主要对雷达、摄像头、激光扫描仪三种传感器的探测信息进行融合，三台IBEO LUX激光扫描仪安装在前保险杠上，摄像头安装在挡风玻璃后面，并配备了多台雷达。

上图说明：

蓝色：摄像头视野范围；

红色：激光扫描仪感知范围；

绿色：雷达感知范围；

该算法提出了一个分层模块化环境感知系统(HMEP)，包含三个感知层：网格映射、定位和目标跟踪；

图2.分层模块化环境感知系统结构

每个感知层都会进行传感器融合，并产生一个环境模型结果；除了传感器数据外，感知层还可以使用上一层的结果，其顺序是按照环境模型元素的抽象级提高的；不同的感知层结果可能是冗余的，甚至是矛盾的，因此组合模型将所有结果组合到一个统一的环境模型中。

网格映射层

图3.网格映射层结构

网格映射层将周围环境划分为单个网格单元，并根据经典的占用网格映射方法来估计每个单元在网格图中的占比状态，输出结果为每个单元格的占比概率；组合模块主要使用其输出信息来预测目标物体边界；

具体：基于传感器数据，逆传感器模型可以预测每个单元格占比概率，被称为测量网格；映射算法通过使用二进制贝叶斯滤波器更新测量网格的网格映射，并将多传感器数据融合到网格映射层中。

定位层

图3.定位层结构

定位层融合传感器探测数据、网格层信息和数字地图，输出带有自定位信息的数字地图；

具体：在由三个激光扫描仪构建的网格图中利用极大稳定极值区域(Maximally Stable Extremal Regions,MSER)提取特征，网格图中的特征包括树干、路标等；基于特征图显示，定位层利用蒙特卡罗定位(Monte-Carlo Localization，MCL)方法来预测目标姿态。

跟踪层

图3.跟踪层结构

跟踪层通过将雷达、摄像头、激光雷达的探测数据进行集中式融合实现对周围环境中移动物体的感知，还可以利用来自网格映射层和定位层的信息获取目标朝向、最大速度等信息，从而完成多目标跟踪任务。

融合模块通过使用带有标签的多伯努利(Labeled Muti-Bernouli，LMB)滤波器实现，输出一个包含目标轨迹空间分布和存在概率的列表；跟踪层使用DempsterShafer方法实现传感器融合感知，能有效发挥各传感器的优势，避免因传感器的限制而导致的失败；

小结

该算法提出，对于未来自动驾驶感知系统来说，其关键技术是在不改变融合系统核心的情况下更换传感器的能力；每个感知层都提供一个通用传感器接口，其可以在不改变感知系统融合核心的前提下合并额外的传感器或替换现有的传感器。

其提出的模块化的结构有助于传感器的更换，且传感器独立接口在网络映射、定位和跟踪模块的应用使得修改传感器设置不需要对融合算法进行任何调整。

2.2 FOP-MOC模型

Chavez-Garcia等人提出了FOP-MOC模型，将目标的分类信息作为传感器融合的关键元素，以基于证据框架的方法作为传感器融合算法，着重解决了传感器数据关联、传感器融合的问题。

图3.不同级别的融合方式

低层融合在SLAM模块中执行；检测层融合了各个传感器检测到的目标列表；跟踪层融合了各个传感器模块追踪目标的轨迹列表，以生成最终结果。FOP-MOC在检测层进行传感器融合来提高感知系统的感知能力。

图3.FOP-MOC模型结构

多传感器前融合技术

3.多传感器前融合技术

前融合技术：指在原始数据层面，把所有传感器的数据信息进行直接融合，然后根据融合后的数据信息实现感知功能，输出一个结果层的探测目标。

常见的基于神经网络的融合方法，如：MV3D(Multi-View 3D Object Detection)、AVOD(Aggregate View Object Detection)、F-PointNet(Frustum PointNets for 3D Object Detection)等。

3.1 MV3D

MV3D将激光雷达探测的点云数据和可见光摄像头拍摄的RGB图像进行融合，其输入数据为激光雷达投影的鸟瞰图(LIDAR bird view)、前视图(LIDAR front view)和二维RGB图像，其网络结构主要有三维区域生成网络(3D proposal network)和基于区域的融合网络(region-based fusion network)，使用深度融合(deep fusion)方式进行融合，如下图：

激光雷达点云数据是一个无序的数据点构成的集合，在用设计好的神经网络模型处理点云数据前，为了更加有效保留三维点云数据的信息，方便处理，MV3D将点云数据投影到特定的二维平面，得到鸟瞰图和前视图。

3D proposal network，类似于Faster-RCNN检测模型中应用的区域生成网络(Region Proposal Network，RPN)，并在三维推广，实现的一个功能就是生成目标的三维候选框；这部分功能在鸟瞰图中完成，鸟瞰图的各个目标遮挡较少，候选框提取的效率最好。

在提取候选框后，分别向三种图中进行映射，得到各自感兴趣区域(Region of Interest，ROI)，进入region-based fusion network进行融合；在融合方式选择上，有：早期融合(early fusion)、后期融合(late fusion)、深度融合(deep fusion)，三种方式对比如下图：

3.2 AVOD

AVOD是一种融合激光雷达点云数据及RGB图像信息的三维目标检测算法，其输入只有激光雷达生成的鸟瞰图(Bird’s Eye View，BEV)Map和摄像头采集的RGB图像，舍弃了激光雷达前向图(Front View，FV)和BEV中的密度特征(intensity feature)，如下图所示：

图 3 AVOD结构图

对输入数据，AVOD先进行特征提取，得到两种全分辨率的特征映射，输入到RPN中生成没有朝向的区域建议，最后挑选出合适的提议候选送入到检测网络生成带有朝向的三维界框，完成目标检测任务；AVOD存在两处传感器数据融合：特征融合和区域建议融合。

上图说明：上图是AVOD特征提取网络，使用了编码器-解码器(encoder-decoder)结构，每层解码器先对输入进行上采样，然后与对应编码器的输出串联，最终通过一个3×3的卷积进行融合；该结构可以提取到分辨率的特征映射，有效避免了小目标物体因为下采样在输出的特征映射上所占像素不足1的问题，最终输出的特征映射既包含底层细节信息，又融合了高层语义信息，能有效提高小目标物体的检测结果。

上图说明：上图是三种边界框编码方式，从左到右依次是：MV3D、轴对齐、AVOD的三维边界框编码方式，与MV3D指定八个顶点坐标的编码方式相比，AVOD利用一个底面和高度约束了三维边界框的形状，且只用一个10维的向量表示即可，MV3D需要24维的向量表示。

3.3 F-PointNet

F-PointNet结合成熟的二维图像中的目标检测方法来对目标进行定位，得到对应三维点云数据中的视锥体(frustum)，并对其进行边界框回归从而完成检测任务，如下图所示：

F-PointNet整个网络结构由三部分组成：视锥体(frustum proposal)、三维实例分割(3D instance segmentation)、三维边界框回归(amodal 3D box estimation)；网络结构如下图所示：

F-PointNet利用RGB图像分辨率高这一优点，采用基于FPN的检测模型先得到目标在二维图像上的边界框，然后按照已知的摄像头投影矩阵，将二维边界框提升到定义了目标三维搜索空间的视锥体，并收集截体内的所有点构成锥体点云；

上图说明：图(a)是摄像头坐标系，图(b)是锥体坐标系，图( c )是三维掩膜局部坐标系，图(d)是T-Net预测的3D目标坐标系；为了避免遮挡和模糊问题，对锥体点云数据，F-PointNet使用PointNet(或PointNet++)模型进行实例分割；在三维空间中，物体间大都是分离的，三维分割更可靠；通过实例分割，可以得到目标物体的三维掩膜(即属于该目标的所有点云)，并计算其质心作为新的坐标原点，如图( c )所示，转换为局部坐标系，以提高算法的平移不变性；最后，对目标点云数据，F-PointNet通过使用带有T-Net的PointNet(或PointNet++)模型进行回归操作，预测目标三维边界框的中心、尺寸和朝向，如图(d)所示，最终完成检测任务；T-Net的作用是预测目标三维边界框真实中心到目标质心的距离，然后以预测中心为原点，得到目标坐标系。

小结：

F-PointNet为了保证每个步骤点云数据的视角不变性和最终更加准确地回归三维边界框，共需要进行三次坐标系转换，分别是视锥体转换、掩膜质心转换、T-Net预测。

FOP-MOC模型，融合模型的输入信息有：雷达、摄像头、激光雷达的检测目标列表，输出结果为融合后的目标检测信息，并送入到跟踪模块中；雷达和激光雷达的探测数据主要用于移动目标检测，摄像头采集的图像主要用于目标分类，每个目标都由其位置、尺寸、类别假设的证据分布来表示，类别信息是从检测结果中的形状、相对速度和视觉外观中获得的。

多传感器融合技术

自动驾驶系统由环境感知、规划、决策、控制等几个模块组成，其中环境感知需要用到诸如摄像头、毫米波雷达、激光雷达等传感设备来获取周围环境的信息。不同种的传感器有着不同的优势与缺陷，为了使感知层获得的信息更为丰富、准确，通常需要将不同的传感器进行融合。本文着重介绍多传感器融合的概念与相关知识，不具体介绍技术细节。

1. 运动感知类与环境感知类传感器

自动驾驶中的传感器一般分为运动感知类传感器与环境感知类传感器。运动感知类传感器主要用以解决自动驾驶中的定位与建图问题。常见的传感器有全球定位系统（GNSS，Global Navigation Satellite System）、RTK（Real-Time Kinematic）、惯性传感器IMU(IMU,Inertial Measurement Unit)、轮速计（Wheel Speedometer）、激光雷达（LiDAR，Light Detection and Ranging）、相机（Camera）。

环境感知类传感器在自动驾驶中一般用于感知目标。常见的传感器有激光雷达（LiDAR，Light Detection and Ranging）、相机（Camera）、毫米波雷达（RaDAR，Radio Detection and Ranging，或者millimeter wave radar）、超声波雷达（ultrasonic radar）。

从传感器的功能角度看，上述两个方面的传感问题都需要用到多传感器融合。

下面是对常见传感器的总结。

传感器	传感器类型	成像细节	成像空间	视野范围	触发方式	价格	量产需求
Camera	被动	稠密	2D	距离：0-200m FOV：30°/60°、120°/fisheye 盲区：近处盲区	滚动快门，成像时间域内有误差	<1k	成熟量产
LiDAR	主动	稀疏	3D	距离：0-200m FOV：360°/<90° 盲区：近处盲区	逐点成像，成像时间域内无误差	5k~10w	支持量产
Radar	主动	稀疏	2.5D	距离：5-150m FOV：<120° 盲区：近处盲区	成像时间域内无误差	<5k	成熟量产
超声波雷达	主动	稀疏	2.5D	距离：0-10m FOV：<120° 盲区：无	成像时间域内无误差	<1k	成熟量产

下面总结了传感器如何相互配合

1）多种电磁波与机械波配合

2）被动传感器与主动传感器配合

3）稀疏传感器与密集传感器搭配，2D与3D配合远中近距离均适合

4）FOV可灵活搭配，可有效区分重点区域

5）时间戳误差可控，感知的维度各有所长

6）均已量产，LiDAR虽成本高使用受限，但发展快

2. 为什么需要这么多传感器？

2.1 从需求侧分析

自动驾驶系统需要考虑多方面的因素：天气、光照条件、距离、维度及精度与系统级要求。除此之外，对于传感器，成本可控、满足车规要求也是十分重要的。

天气	光照条件	距离	维度及精度	系统级要求
晴天	白天	盲区(0-2m)	六自由度观测	无漏检
雨天	黄昏	近距离(2-40m)	速度/加速度/角速度等	无误检
雾天	黑夜	中距离(40-80m)		时间误差<10ms
阴天	阳光直射	远距离(80-200m)		位置误差<30cm
雪天	背光	超远距离(200+m)

2.2 从供给侧分析

各种传感器各有优劣，一种传感器无法适配所有场景，因此需要出色的传感器融合技术。比如，摄像头颜色细节丰富、纹理细节丰富，但缺乏深度信息，且易受光照的影响；LiDAR具有完整的3D信息，对距离感知能力强，但成本高，量产难度大，对雨水、灰尘敏感；RaDAR全天候工作，速度感知能力强，量产成熟，但高度和角度精度低，静止障碍物感知能力弱。

3. 多传感器硬件系统的设计思路

对于自动驾驶汽车的多传感器硬件系统，一般从以下四个角度去考虑：感知区域、感知范围、优先级、冗余要求。