Don't Forget The Past: Recurrent Depth Estimation from Monocular Video

PATIL, Vaishakh, et al. Don't Forget The Past: Recurrent Depth Estimation from Monocular Video. arXiv preprint arXiv:2001.02613, 2020.
（尾作大佬挂名）

主要思想是使用convlstm来借助前k帧的预测值（深度图）与当前的图像表示来预测当前帧的深度图

这里介绍三种单目深度估计的方法：

1. Supervised Depth Prediction with RGB Images

这种文中的使用的方法就是会直接用一个fcn来train dense的depth map, 缺点是泛化能力差。

这是直接化用了monodepth2的方法，这里将深度估计的任务视为图像重建的任务，计算view-synthesis loss。
首先T+1 帧图像可以由a.T帧图像，b.cam内参，c.cam pose，d.深度预测值得到，这里面如果b,c,d都准确，重建的T+1帧应该是与真实的T+1帧相同。

衡量两针之间关系的metric：1）SSIM 2）pixel之差。这里monodepth2综合了两者记为\(L_{vs}\)

SSIM利用两张图片的均值与方差计算两者的亮度、对比度、结构性之间的关系，（如果是旋转之类的变化，原始SSIM是无法很好的衡量的），两张相同图片SSIM为1
由于遮挡的问题，不同patch之间的\(L_{vs}\)可能非常大，但是这时候并不是depth不准造成的，为了避免这种情况，monodepth2使用了一些trick。比如取前后几帧图像\(L_{vs}\)的最小值。
monodepth2的其他技巧：图像边缘处depth变化较大，非边缘处depth变化较小，（看到目前这版论文中公式7似乎是错的）。

这里就是综合了前两种，无非就是sparse depth中没有值的地方ignore掉

这里文中试验表示conv lstm的初始状态比较重要，如果使用zore 初始化，得到的结果比baseline还差。

posted on 2020-05-14 23:20 treeaxx 阅读(377) 评论(0) 收藏举报

刷新页面返回顶部