代码改变世界

即将开源!基于动态不变性感知的多模态视觉位置识别

2021-12-01 10:14  计算机视觉life  阅读(149)  评论(0编辑  收藏  举报

原文链接:即将开源!基于动态不变性感知的多模态视觉位置识别

论文题目:Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space

来自:东南大学自动化学院

作者:Lin Wu, Teng Wang and Changyin Sun

链接: https://doi.org/10.1109/LSP.2021.3123907

代码地址(即将开源):https://github.com/fiftywu/Multimodal-VPR

论文摘要

视觉位置识别是机器人领域中必不可少且具有挑战性的问题之一。在这篇快报中,我们首次探索了在动态不变空间中使用语义和视觉的多模态融合来改善动态环境中的位置识别。首先,我们设计了一种新颖的深度学习架构来生成静态语义分割,并直接从相应的动态图像中恢复静态图像。然后,我们利用空间金字塔匹配模型(SPM)将静态语义分割编码为特征向量,而对于静态图像,则使用流行的词袋模型(BoW)进行编码。在上述多模态特征的基础上,我们通过语义和视觉编码的联合相似度来衡量查询图像与目标地标之间的相似度。大量实验证明了所提出的方法在动态环境中的位置识别的有效性和鲁棒性。

视觉位置识别

视觉位置识别(VPR)作为 SLAM 系统的关键组成部分,是一项可以帮助机器人确定其是否位于先前访问过的地方的任务。当前的工作通常将其视为将当前观察与一组参考地标相匹配的图像检索任务,并设计各种特征描述符来测量地标相似性。这些方法通常假定系统在静态环境中运行, 然而,现实世界是复杂而动态的。动态物体的存在使得不同时刻的场景外观不一致,从而增加了特征匹配的误差。

动态不变性感知

动态不变性感知是指在动态场景下,将其中动态的内容(如行人、车辆)消除并转换成与之相对应的静态内容。典型的工作有《Empty Cities: a Dynamic-Object-Invariant Space for Visual SLAM》(IEEE Transactions on Robotics,2020),我们在此基础上做了一点改进,提出了一种粗糙到精细的两阶段动静转换模型《A Coarse-to-fine Approach for Dynamic-to-static Image Translation》(Pattern Recognition, 2021)。而在IEEE-SPL这篇快报中,我们设计一种新颖的深度神经网络架构从输入的静态场景图像直接推理出静态语义(即静态语义分割图)和的静态图像。特别地,我们还将静态语义作为先验用来提高静态图像的生成质量。静态语义分割结果与静态图像转换效果如图2、图3所示(实验数据集由无人驾驶模拟器CARLA创建)。

视觉位置识别实验

为了与当前主流的图像转换方法的VPR召回率进行比较,我们使用 Pix2Pix、MGAN、SRMGAN 和 SSGGNet 来恢复的静态图像,继而从中提取 BoW 特征来测量图像相似性。表中给出了不同模型的召回准确率,相比之下,我们的方法同时利用了 BoW 和 SPM 编码,表现最好,并且大大提高了第二名SSGGNet-BoW的召回率,这充分体现了基于 SPM 的语义特征的重要性。此外,SSGGNet-BoW 优于 Pix2Pix-BoW、MGAN-BoW 和 SRMGAN-BoW,这进一步验证了利用静态语义指导静态图像生成的有效性。

相关论文

T. Wang, L. Wu and C. Sun, "A coarse-to-fine approach for dynamic-to-static image translation,” in Pattern Recognition, 2022, doi: 10.1016/j.patcog.2021.108373.

L. Wu, T. Wang and C. Sun, "Multi-Modal Visual Place Recognition in Dynamics-Invariant Perception Space," in IEEE Signal Processing Letters, 2021, doi: 10.1109/LSP.2021.3123907.

B. Bescos, C. Cadena and J. Neira, "Empty Cities: A Dynamic-Object-Invariant Space for Visual SLAM," in IEEE Transactions on Robotics, 2021, doi: 10.1109/TRO.2020.3031267.

P. Isola, J. Zhu, T. Zhou and A. Efros, "Image-to-Image Translation with Conditional Adversarial Networks", CVPR, 2017, https://arxiv.org/pdf/1611.07004.pdf.


  

独家重磅课程!

1、 VINS:Mono+Fusion [SLAM面试官:看你简历上写精通VINS,麻烦现场手推一下预积分!](http://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247533048&idx=1&sn=69ab9a5650cf8b40eb4b44101fa5c1d6&chksm=97d4a46fa0a32d790bce452e812a86dc13fa9b2ce997786dfde4d8266b153b9787daf16ab10c&scene=21#wechat_redirect)

2、VIO课程:[VIO最佳开源算法:ORB-SLAM3超全解析课程重磅升级!](http://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247531253&idx=2&sn=55a8499c705f4b1e16344be12539110b&chksm=97d49f62a0a316745e1740381d4cb9308cff2f46cc61e2d8a789398d986fa5182a5e81995694&scene=21#wechat_redirect)

3、图像三维重建课程(第2期):[视觉几何三维重建教程(第2期):稠密重建,曲面重建,点云融合,纹理贴图](http://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247529697&idx=1&sn=6bee36b3cc7cd76135652d06a62693c6&chksm=97d49176a0a3186016ddfc820425dbec0b671a7dea8095cefb29a87eb2393ddfbbd342007e11&scene=21#wechat_redirect)

4、[重磅来袭!基于LiDAR的多传感器融合SLAM 系列教程:LOAM、LeGO-LOAM、LIO-SAM](http://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247524898&idx=1&sn=97e134aef34170c4c1539986c5cebe2b&chksm=97d487b5a0a30ea3dd0eb5c2f264bd0bd98ae3acb7076a10973ea6065e5f1e5cb4e6d3103dda&scene=21#wechat_redirect)

5、系统全面的相机标定课程:[单目/鱼眼/双目/阵列 相机标定:原理与实战](http://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247524279&idx=1&sn=8aeb79b5f33de5d88114f2c9398a4858&chksm=97d47a20a0a3f3365e959c131f9d0fb217b57d2e064d41a3646774779038070ff9ddffd1a90c&scene=21#wechat_redirect)

6、视觉SLAM必备基础(第2期):[视觉SLAM必学基础:ORB-SLAM2源码详解](http://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247523523&idx=3&sn=d0526b0bdf170fdc2b95de21083db74f&chksm=97d47954a0a3f042288e2e88e6b7a10a74b353eb8609f7043b6428295dd0bcee6ffae77e8010&scene=21#wechat_redirect)

7、深度学习三维重建课程:[基于深度学习的三维重建学习路线](http://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247522209&idx=3&sn=7bea4b408ada457feed196dc3c54a943&chksm=97d47236a0a3fb20cd2f805b787176463b51fce8172a726e78c9aaba6f586d7f57e811d2fb68&scene=21#wechat_redirect)

8、激光定位+建图课程:[激光SLAM框架Cartographer课程90+视频全部上线!适合服务机器人!](http://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247532927&idx=1&sn=079cefecbb206907a6a26b4ec8822574&chksm=97d4a4e8a0a32dfe88cba508a57d3326bbbed9846d5f522740805d392814ca0080ba60a480a5&scene=21#wechat_redirect)

  

  

链接:[即将开源!基于动态不变性感知的多模态视觉位置识别](https://mp.weixin.qq.com/s/P5hpmdZiDkpqpDMsXsIMoA)

  

全国最棒的SLAM、三维视觉学习社区↓
链接:[即将开源!基于动态不变性感知的多模态视觉位置识别](https://mp.weixin.qq.com/s/P5hpmdZiDkpqpDMsXsIMoA)


  

#### 技术交流微信群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群,请添加微信号 chichui502 或扫描下方加群,备注:”名字/昵称+学校/公司+研究方向“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

投稿、合作也欢迎联系:simiter@126.com

链接:[即将开源!基于动态不变性感知的多模态视觉位置识别](https://mp.weixin.qq.com/s/P5hpmdZiDkpqpDMsXsIMoA)
  

扫描关注视频号,看最新技术落地及开源方案视频秀 ↓

链接:[即将开源!基于动态不变性感知的多模态视觉位置识别](https://mp.weixin.qq.com/s/P5hpmdZiDkpqpDMsXsIMoA)

  

—   版权声明  —

本公众号原创内容版权属计算机视觉life所有;从公开渠道收集、整理及授权转载的非原创文字、图片和音视频资料,版权属原作者。如果侵权,请联系我们,会及时删除。