RF-DETR-内部揭秘-实时-Transformer-检测的见解

RF-DETR 内部揭秘:实时 Transformer 检测的见解

原文:towardsdatascience.com/rf-detr-under-the-hood-the-insights-of-a-real-time-transformer-detection/

如果你关注计算机视觉领域,你很可能已经听说过 RF-DETR,这是来自 Roboflow 的新实时目标检测模型。它因其令人印象深刻的性能而成为新的 SOTA。但要真正欣赏它的运作原理,我们需要超越基准,深入其架构 DNA。

RF-DETR 不是一个全新的发明;它的故事是一个解决一个问题的迷人旅程,从原始 DETR 中的基本局限性开始,以一个轻量级的实时 Transformer 结束。让我们追踪这一演变。

检测管道的范式转变

2020 年出现了 DETR(DEtection TRansformer)[1],这是一个完全改变了目标检测管道的模型。它是第一个完全端到端的检测器,消除了锚点生成和非最大抑制(NMS)等手工设计的组件的需求。它是通过结合 CNN 骨干网络和 Transformer 编码器-解码器架构实现的。尽管其设计具有革命性,但原始的 DETR 存在重大问题:

  1. 收敛速度极慢:DETR 需要大量的训练轮次才能收敛,这比 Faster R-CNN 等模型慢 10-20 倍。

  2. 高计算复杂度:Transformer 编码器中的注意力机制在特征图的空间维度(H, W)上具有 O(H²W²C)的复杂度。这种二次复杂度使得处理高分辨率特征图变得成本过高。

  3. 对小物体检测性能差:由于其高复杂度,DETR 无法使用高分辨率特征图,而这些特征图对于检测小物体至关重要。

这些问题都源于 Transformer 处理图像特征的方式,即查看每个单独的像素,这既低效又难以训练。

突破:可变形 DETR

为了解决 DETR 的问题,研究人员回顾过去,并在可变形卷积网络[2]**]中找到了灵感。多年来,CNN 在计算机视觉领域占据主导地位。然而,它们有一个固有的局限性:它们难以建模几何变换。这是因为它们的核心理念,如卷积和池化层,具有固定的几何结构。这就是可变形 CNN 出现的地方。关键思想非常简单:如果 CNN 中的采样网格不是固定的会怎样?

  • 新模块可变形卷积通过 2D 偏移增加了标准网格采样位置。

  • 关键的是,这些偏移量不是固定的;它们是通过额外的卷积层从先前的特征图中学习得到的。

  • 这使得采样网格能够动态地变形并局部、密集地适应物体的形状和尺度。

图片

图片由作者提供

这种从可变形卷积中自适应采样的想法被应用于 Transformer 的注意力机制。结果是可变形 DETR [3]。

核心创新是可变形注意力模块。这个模块不是在特征图的所有像素上计算注意力权重,而是做了一些更智能的事情:

  • 它只关注参考点周围的一小部分固定采样点。

  • 就像在可变形卷积中一样,这些采样点的 2D 偏移量是通过查询元素本身的线性投影来学习的。

  • 由于其注意力机制具有内置处理和融合多尺度特征的能力,因此无需单独的 FPN 架构。

图片

从[3]中提取的可变形注意力模块的示意图

可变形注意力的突破在于它“只关注参考点周围的一小部分关键采样点” [3],无论特征图的空间大小如何。论文的分析表明,当这个新模块应用于编码器(其中查询数 N[q]等于空间大小 HW)时,其复杂度变为 O(HWC²),这与空间大小成线性关系。这种独特的变化使得处理高分辨率特征图在计算上变得可行,显著提高了对小型物体的性能。

实现实时性:LW-DETR

可变形 DETR 解决了收敛和精度问题,但为了与 YOLO 等模型竞争,它需要更快。这就是LW-DETR(轻量级 DETR)[4]出现的地方。其目标是创建一个基于 Transformer 的架构,能够在实时目标检测中优于 YOLO 模型。该架构是一个简单的堆叠:一个视觉 Transformer(ViT)编码器、一个投影仪和一个浅层 DETR 解码器。他们从 DETR 框架中移除了编码器-解码器架构部分,只保留了解码器部分,如此行代码所示。

图片

图片由作者提供

为了达到其速度,它采用了几个关键的效率技术:

  • 可变形交叉注意力:解码器直接使用 Deformable DETR 中的高效可变形注意力机制,这对于其性能至关重要。

  • 交错窗口和全局注意力:ViT 编码器成本高昂。为了降低其复杂性,LW-DETR 用许多更便宜的窗口自注意力层替换了一些昂贵的全局自注意力层。

  • 较浅的解码器:标准的 DETR 变体通常使用 6 个解码器层。LW-DETR 只使用 3 个,这显著降低了延迟。

在 LW-DETR 中,投影器充当一个至关重要的桥梁,将视觉 Transformer(ViT)编码器连接到 DETR 解码器。它使用C2f 块构建,这是一个在 YOLOv8 模型中使用的有效卷积块。该块处理特征并为解码器的交叉注意力机制做准备。通过结合可变形注意力和这些轻量级设计选择的力量,LW-DETR 证明了 DETR 风格的模型可以成为性能优异的实时检测器。

组装 RF-DETR 的各个部分

这又把我们带回了 RF-DETR [5]。它不是一个孤立的突破,而是这一进化链中的逻辑下一步。具体来说,他们通过将 LW-DETR 与预训练的 DINOv2 骨干相结合来创建 RF-DETR,正如此行代码所示。这使得模型具有非凡的能力,可以根据预训练 DINOv2 骨干中存储的知识适应新的领域。这种非凡适应性的原因是 DINOv2 是一个自监督模型。与在 ImageNet 上使用固定标签训练的传统骨干不同,DINOv2 是在一个庞大、未经编辑的数据集上训练的,没有任何人工标签。它通过解决某种“拼图”问题来学习,迫使它发展出极其丰富和通用的纹理、形状和物体部分的理解。当 RF-DETR 使用这个骨干时,它不仅仅得到一个特征提取器;它得到一个可以以显著效率微调用于特定任务的深度视觉知识库。

图片由作者提供

与先前模型相比,一个关键的区别是 Deformable DETR 使用多尺度自注意力机制,而 RF-DETR 模型从单尺度骨干中提取图像特征图。最近,RF-DETR 模型背后的团队增加了一个分割头,除了边界框外还提供掩码,使其也成为分割任务的理想选择。请查看其文档以开始使用它,微调它,甚至以 ONNX 格式导出它。

结论

原始 DETR 通过移除如 NMS 等手工设计的组件,革命性地改变了检测流程,但由于收敛速度慢和二次复杂度,实际上并不实用。Deformable DETR 提供了关键的建筑突破,用高效的、自适应采样机制(灵感来自可变形卷积)替换了全局注意力。随后,LW-DETR 证明了这种高效架构可以打包用于实时性能,挑战 YOLO 的主导地位。RF-DETR 代表了逻辑上的下一步:它将高度优化的可变形架构与现代自监督骨干的原始力量相结合。

参考文献

[1] 使用 Transformer 进行端到端目标检测。Nicolas Carion 等人,2020 年。

[2] 可变形卷积网络。Jifeng Dai 等人,2017 年。

[3] 可变形 DETR:用于端到端目标检测的可变形 Transformer,朱锡洲等,2020 年。

[4] LW-DETR:YOLO 的实时检测替代方案,陈强等,2024 年。

[5] github.com/roboflow/rf-detr/tree/develop

posted @ 2026-03-27 10:03  布客飞龙II  阅读(95)  评论(0)    收藏  举报