西北工业大学StereoMV2D突破3D物体检测深度难题,精度与效率兼得
西北工业大学StereoMV2D突破3D物体检测深度难题,精度与效率兼得


论文标题:StereoMV2D: A Sparse Temporal Stereo-Enhanced Framework for Robust Multi-View 3D Object Detection
发布时间:2025年12月19日
大模型实验室Lab4AI论文阅读
✔️研究背景
多视图3D物体检测需在检测精度和计算效率间取得平衡。稀疏查询基方法(如MV2D)通过2D检测结果初始化3D查询,提供了高效的端到端检测范式,但单帧2D检测存在深度模糊问题,导致3D查询初始化不准确。
现有融合时序立体建模的方法多依赖密集代价体构建,引入大量计算与内存开销,难以兼容稀疏查询类方法的高效特性,形成研究缺口。
✔️研究内容
针对单帧 2D 检测的深度模糊缺陷,以及现有时序立体建模方法计算开销大的问题,本研究旨在提出一种统一框架,将时序立体建模融入稀疏查询检测范式,在保持稀疏查询类方法高效性的同时,增强深度感知能力,提升多视图 3D 目标检测的精度与鲁棒性,实现精度与效率的良好平衡。
✔️核心思想
1️⃣匹配同一物体
汽车运动、场景变化时,系统需在前一帧与当前帧图像中匹配同一物体。
论文采用 “运动感知软匹配” 模块,结合物体外观与运动趋势,建立跨帧关联。
2️⃣物体区域内算深度
匹配到同一物体的跨帧图像后,StereoMV2D 仅在物体对应的感兴趣区域(RoI)内开展精细立体计算,减少计算量;通过对比物体在两帧图像中的细微位移,精准计算其真实距离。
3️⃣智能筛选有效信息
针对现实场景中物体新出现或被遮挡的动态情况,论文设计动态置信门控机制,自动判定采用立体测量结果,还是回退至单帧图像的推测结果。

浙公网安备 33010602011771号