视觉惯性里程计Visual–Inertial Odometry(VIO)概述

周围很多朋友开始做vio了，之前在知乎上也和胖爷讨论过这个问题，本文主要来自于知乎的讨论。

来自https://www.zhihu.com/question/53571648/answer/137726592

个人理解错误的地方还请不吝赐教，转载请标明出处，内容如有改动更新，请看原博：http://www.cnblogs.com/hitcm/，如有任何问题，feel free to contact me at robotsming@gmail.com

如有问题,请及时反馈给我,博客会持续更新。

1.基本概述与分类

按照Davide Scaramuzza的分类方法，首先分成filter-based和optimization-based的两个大类，这也和一般SLAM系统的分类方法类似。

按照是否把图像特征信息加入状态向量来进行分类，可以分为松耦合(loosely-coupled，下面的losely是笔误)和紧耦合(tightly-coupled)。

这是两种独立的分类方法，首先看是基于滤波还是优化的，然后进一步根据状态向量中是否加入了图像的特征信息来判断松紧耦合。

VIO主要尝试的是融合Viusal和IMU的信息，因此后面的论述中也就主要考虑这两种数据。

2.Filter-based

利用滤波的方法进行多传感器的数据融合是一个很正常的套路。

按照是否把图像特征信息加入特征向量来进行分类，可以分为紧耦合和松耦合。

2.1紧耦合

紧耦合需要把图像feature进入到特征向量去，因此整个系统状态向量的维数会非常高，因此也就需要很高的计算量。比较经典的算法是MSCKF，ROVIO。

2.2紧耦合举例-msckf

以比较经典的msckf为例，据说这也是谷歌tango里面的算法，这要感觉Mingyang Li师兄在MSCKF的不懈工作。

在传统的EKF-SLAM框架中，特征点的信息会加入到特征向量和协方差矩阵里,这种方法的缺点是特征点的信息会给一个初始深度和初始协方差，如果不正确的话，极容易导致后面不收敛，出现inconsistent的情况。

Msckf维护一个pose的FIFO，按照时间顺序排列，可以称为滑动窗口，一个特征点在滑动窗口的几个位姿都被观察到的话，就会在这几个位姿间建立约束，从而进行KF的更新。

2.3松耦合

而松耦合的方法则简单的多，避免把图像的feature加入状态向量，而是把图像当成一个black box,计算vo处理之后才和imu数据进行融合。

Ethz的Stephen Weiss在这方面做了很多的研究，他的ssf和msf都是这方面比较优秀的开源算法，有兴趣的读者可以参考他的博士论文。

2.4松耦合举例-ssf

代码在https://github.com/ethz-asl/ethzasl_sensor_fusion

滤波器的状态向量是24维，如下，相较于紧耦合的方法会精简很多。

Ssf_core主要处理state的数据，里面有预测和更新两个过程。

Ssf_update则处理另外一个传感器的数据，主要完成测量的过程。

3.optimization-based

随着研究的不断进步和计算平台性能的不断提升，optimization-based的方法在slam得到应用，很快也就在VIO中得到应用，紧耦合中比较经典的是okvis，松耦合的工作不多。

3.1松耦合举例

这方面的工作不多，而且效果显然是没有紧耦合好的。大佬Gabe Sibley在iros2016的一篇文章《Inertial Aided Dense & Semi-Dense Methods for Robust Direct Visual Odometry》提到了这个方法。简单来说就是把vo计算产生的位姿变换添加到imu的优化框架里面去。