Don't Forget The Past: Recurrent Depth Estimation from Monocular Video

PATIL, Vaishakh, et al. Don't Forget The Past: Recurrent Depth Estimation from Monocular Video. arXiv preprint arXiv:2001.02613, 2020.
(尾作大佬挂名)

主要思想是使用convlstm来借助前k帧的预测值(深度图)与当前的图像表示来预测当前帧的深度图

这里介绍三种单目深度估计的方法:

1. Supervised Depth Prediction with RGB Images

这种文中的使用的方法就是会直接用一个fcn来train dense的depth map, 缺点是泛化能力差。

2. Self-supervised Depth Prediction with Monoc-ular Video

这是直接化用了monodepth2的方法,这里将深度估计的任务视为图像重建的任务,计算view-synthesis loss。
首先T+1 帧图像可以由a.T帧图像,b.cam内参,c.cam pose,d.深度预测值得到,这里面如果b,c,d都准确,重建的T+1帧应该是与真实的T+1帧相同。

衡量两针之间关系的metric:1)SSIM 2)pixel之差。这里monodepth2综合了两者记为\(L_{vs}\)

  • SSIM利用两张图片的均值与方差计算两者的亮度、对比度、结构性之间的关系,(如果是旋转之类的变化,原始SSIM是无法很好的衡量的),两张相同图片SSIM为1
  • 由于遮挡的问题,不同patch之间的\(L_{vs}\)可能非常大,但是这时候并不是depth不准造成的,为了避免这种情况,monodepth2使用了一些trick。比如取前后几帧图像\(L_{vs}\)的最小值。
  • monodepth2的其他技巧:图像边缘处depth变化较大,非边缘处depth变化较小,(看到目前这版论文中公式7似乎是错的)。

3. Self-supervised Depth Completion with Monoc-ular Video and Sparse Depth Maps

这里就是综合了前两种,无非就是sparse depth中没有值的地方ignore掉

one more thing

这里文中试验表示conv lstm的初始状态比较重要,如果使用zore 初始化,得到的结果比baseline还差。

posted on 2020-05-14 23:20  treeaxx  阅读(374)  评论(0)    收藏  举报