MonoDETR(1)

传统的单目3D目标检测器遵循2D检测的思路,即首先从heatmap找出2D中心或映射的3D中心,然后根据中心周围的特征图预测3D属性,比如3D尺寸,深度,方向等等,因此其性能较差,如下图第一行所示.MonoDETR旨在提出一种摆脱中心限制,使用Transformer直接预测3D属性的方法,如下图第二行所示.

QQ图片20250830140310

MonoDETR的结构如下图所示.首先输入图片,然后用ResNet50作为Backbone提取特征,在利用ResNet50输出的4张特征图的最后3张(论文里面说的后面3张,代码里面是前面3张)进行视觉编码和深度编码,最后通过查询生成各种2D和3D属性,如下图所示.

QQ图片20250830140548

 

posted @ 2025-08-30 14:13  MSTK  阅读(3)  评论(0)    收藏  举报