RF-DETR-内部揭秘-实时-Transformer-检测的见解

RF-DETR 内部揭秘：实时 Transformer 检测的见解

原文：towardsdatascience.com/rf-detr-under-the-hood-the-insights-of-a-real-time-transformer-detection/

如果你关注计算机视觉领域，你很可能已经听说过 RF-DETR，这是来自 Roboflow 的新实时目标检测模型。它因其令人印象深刻的性能而成为新的 SOTA。但要真正欣赏它的运作原理，我们需要超越基准，深入其架构 DNA。

RF-DETR 不是一个全新的发明；它的故事是一个解决一个问题的迷人旅程，从原始 DETR 中的基本局限性开始，以一个轻量级的实时 Transformer 结束。让我们追踪这一演变。

检测管道的范式转变

2020 年出现了 DETR（DEtection TRansformer）[1]，这是一个完全改变了目标检测管道的模型。它是第一个完全端到端的检测器，消除了锚点生成和非最大抑制（NMS）等手工设计的组件的需求。它是通过结合 CNN 骨干网络和 Transformer 编码器-解码器架构实现的。尽管其设计具有革命性，但原始的 DETR 存在重大问题：

收敛速度极慢：DETR 需要大量的训练轮次才能收敛，这比 Faster R-CNN 等模型慢 10-20 倍。
高计算复杂度：Transformer 编码器中的注意力机制在特征图的空间维度（H, W）上具有 O(H²W²C)的复杂度。这种二次复杂度使得处理高分辨率特征图变得成本过高。
对小物体检测性能差：由于其高复杂度，DETR 无法使用高分辨率特征图，而这些特征图对于检测小物体至关重要。

这些问题都源于 Transformer 处理图像特征的方式，即查看每个单独的像素，这既低效又难以训练。

突破：可变形 DETR

为了解决 DETR 的问题，研究人员回顾过去，并在可变形卷积网络[2]**]中找到了灵感。多年来，CNN 在计算机视觉领域占据主导地位。然而，它们有一个固有的局限性：它们难以建模几何变换。这是因为它们的核心理念，如卷积和池化层，具有固定的几何结构。这就是可变形 CNN 出现的地方。关键思想非常简单：如果 CNN 中的采样网格不是固定的会怎样？

新模块可变形卷积通过 2D 偏移增加了标准网格采样位置。
关键的是，这些偏移量不是固定的；它们是通过额外的卷积层从先前的特征图中学习得到的。
这使得采样网格能够动态地变形并局部、密集地适应物体的形状和尺度。

图片由作者提供

这种从可变形卷积中自适应采样的想法被应用于 Transformer 的注意力机制。结果是可变形 DETR [3]。

核心创新是可变形注意力模块。这个模块不是在特征图的所有像素上计算注意力权重，而是做了一些更智能的事情：

它只关注参考点周围的一小部分固定采样点。
就像在可变形卷积中一样，这些采样点的 2D 偏移量是通过查询元素本身的线性投影来学习的。
由于其注意力机制具有内置处理和融合多尺度特征的能力，因此无需单独的 FPN 架构。

从[3]中提取的可变形注意力模块的示意图

可变形注意力的突破在于它“只关注参考点周围的一小部分关键采样点” [3]，无论特征图的空间大小如何。论文的分析表明，当这个新模块应用于编码器（其中查询数 N[q]等于空间大小 HW）时，其复杂度变为 O(HWC²)，这与空间大小成线性关系。这种独特的变化使得处理高分辨率特征图在计算上变得可行，显著提高了对小型物体的性能。

实现实时性：LW-DETR

可变形 DETR 解决了收敛和精度问题，但为了与 YOLO 等模型竞争，它需要更快。这就是LW-DETR（轻量级 DETR）[4]出现的地方。其目标是创建一个基于 Transformer 的架构，能够在实时目标检测中优于 YOLO 模型。该架构是一个简单的堆叠：一个视觉 Transformer（ViT）编码器、一个投影仪和一个浅层 DETR 解码器。他们从 DETR 框架中移除了编码器-解码器架构部分，只保留了解码器部分，如此行代码所示。

图片由作者提供

为了达到其速度，它采用了几个关键的效率技术：

可变形交叉注意力：解码器直接使用 Deformable DETR 中的高效可变形注意力机制，这对于其性能至关重要。
交错窗口和全局注意力：ViT 编码器成本高昂。为了降低其复杂性，LW-DETR 用许多更便宜的窗口自注意力层替换了一些昂贵的全局自注意力层。
较浅的解码器：标准的 DETR 变体通常使用 6 个解码器层。LW-DETR 只使用 3 个，这显著降低了延迟。

在 LW-DETR 中，投影器充当一个至关重要的桥梁，将视觉 Transformer（ViT）编码器连接到 DETR 解码器。它使用C2f 块构建，这是一个在 YOLOv8 模型中使用的有效卷积块。该块处理特征并为解码器的交叉注意力机制做准备。通过结合可变形注意力和这些轻量级设计选择的力量，LW-DETR 证明了 DETR 风格的模型可以成为性能优异的实时检测器。

组装 RF-DETR 的各个部分

这又把我们带回了 RF-DETR [5]。它不是一个孤立的突破，而是这一进化链中的逻辑下一步。具体来说，他们通过将 LW-DETR 与预训练的 DINOv2 骨干相结合来创建 RF-DETR，正如此行代码所示。这使得模型具有非凡的能力，可以根据预训练 DINOv2 骨干中存储的知识适应新的领域。这种非凡适应性的原因是 DINOv2 是一个自监督模型。与在 ImageNet 上使用固定标签训练的传统骨干不同，DINOv2 是在一个庞大、未经编辑的数据集上训练的，没有任何人工标签。它通过解决某种“拼图”问题来学习，迫使它发展出极其丰富和通用的纹理、形状和物体部分的理解。当 RF-DETR 使用这个骨干时，它不仅仅得到一个特征提取器；它得到一个可以以显著效率微调用于特定任务的深度视觉知识库。

图片由作者提供

与先前模型相比，一个关键的区别是 Deformable DETR 使用多尺度自注意力机制，而 RF-DETR 模型从单尺度骨干中提取图像特征图。最近，RF-DETR 模型背后的团队增加了一个分割头，除了边界框外还提供掩码，使其也成为分割任务的理想选择。请查看其文档以开始使用它，微调它，甚至以 ONNX 格式导出它。

结论

原始 DETR 通过移除如 NMS 等手工设计的组件，革命性地改变了检测流程，但由于收敛速度慢和二次复杂度，实际上并不实用。Deformable DETR 提供了关键的建筑突破，用高效的、自适应采样机制（灵感来自可变形卷积）替换了全局注意力。随后，LW-DETR 证明了这种高效架构可以打包用于实时性能，挑战 YOLO 的主导地位。RF-DETR 代表了逻辑上的下一步：它将高度优化的可变形架构与现代自监督骨干的原始力量相结合。

参考文献

[1] 使用 Transformer 进行端到端目标检测。Nicolas Carion 等人，2020 年。

[2] 可变形卷积网络。Jifeng Dai 等人，2017 年。

[3] 可变形 DETR：用于端到端目标检测的可变形 Transformer，朱锡洲等，2020 年。

[4] LW-DETR：YOLO 的实时检测替代方案，陈强等，2024 年。

[5] github.com/roboflow/rf-detr/tree/develop

posted @ 2026-03-27 10:03 布客飞龙II 阅读(95) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

人最大的痛苦就是说一些自己都不相信的话。

RF-DETR-内部揭秘-实时-Transformer-检测的见解

RF-DETR 内部揭秘：实时 Transformer 检测的见解

检测管道的范式转变

突破：可变形 DETR

实现实时性：LW-DETR

组装 RF-DETR 的各个部分

结论

参考文献

公告