Don't Forget The Past: Recurrent Depth Estimation from Monocular Video
PATIL, Vaishakh, et al. Don't Forget The Past: Recurrent Depth Estimation from Monocular Video. arXiv preprint arXiv:2001.02613, 2020.
(尾作大佬挂名)
主要思想是使用convlstm来借助前k帧的预测值(深度图)与当前的图像表示来预测当前帧的深度图
这里介绍三种单目深度估计的方法:
1. Supervised Depth Prediction with RGB Images
这种文中的使用的方法就是会直接用一个fcn来train dense的depth map, 缺点是泛化能力差。
2. Self-supervised Depth Prediction with Monoc-ular Video
这是直接化用了monodepth2的方法,这里将深度估计的任务视为图像重建的任务,计算view-synthesis loss。
首先T+1 帧图像可以由a.T帧图像,b.cam内参,c.cam pose,d.深度预测值得到,这里面如果b,c,d都准确,重建的T+1帧应该是与真实的T+1帧相同。
衡量两针之间关系的metric:1)SSIM 2)pixel之差。这里monodepth2综合了两者记为\(L_{vs}\)
- SSIM利用两张图片的均值与方差计算两者的亮度、对比度、结构性之间的关系,(如果是旋转之类的变化,原始SSIM是无法很好的衡量的),两张相同图片SSIM为1
- 由于遮挡的问题,不同patch之间的\(L_{vs}\)可能非常大,但是这时候并不是depth不准造成的,为了避免这种情况,monodepth2使用了一些trick。比如取前后几帧图像\(L_{vs}\)的最小值。
- monodepth2的其他技巧:图像边缘处depth变化较大,非边缘处depth变化较小,(看到目前这版论文中公式7似乎是错的)。
3. Self-supervised Depth Completion with Monoc-ular Video and Sparse Depth Maps
这里就是综合了前两种,无非就是sparse depth中没有值的地方ignore掉
one more thing
这里文中试验表示conv lstm的初始状态比较重要,如果使用zore 初始化,得到的结果比baseline还差。
浙公网安备 33010602011771号