论文名称:Position Guided Dynamic Receptive Field Network: A Small Object Detection Friendly to Optical and SAR Images

论文原文 (Paper)https://ieeexplore.ieee.org/abstract/document/10909281
代码 (code)https://github.com/BJUT-AIVBD/PG-DRFNet


GitHub 仓库链接(含有论文解读及即插即用代码)https://github.com/AITricks/AITricks
哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

1. 核心思想

本文针对遥感图像(涵盖光学和SAR图像)中小目标检测面临的特征淹没和感受野不匹配问题,提出了一种位置引导的动态感受野网络(PG-DRFNet)。其核心在于利用位置引导模块(PGM)将浅层网络中丰富的小目标空间位置信息传递至深层,防止小目标在特征提取过程中“消失”。同时,设计了动态感知卷积(DPC)来构建动态感受野,根据目标的尺度和形状自适应调整特征提取范围。配合组合检测头(Combination Head)的辅助监督机制,该网络在多个光学和SAR数据集上均实现了SOTA性能,管用解决了小目标定位难和背景干扰强的问题。

2. 背景与动机

  • 文本角度总结
    遥感图像目标检测中,小目标(Small Objects)的占比极高,且背景极其复杂(如SAR图像中的斑点噪声、光学图像中的密集背景)。
    现有方法存在两个主要痛点:

    1. 小目标特征消失:随着CNN网络层数加深,下采样操作导致小目标的空间信息逐渐丢失,深层特征图中很难再找到小目标的响应,被称为“淹没”现象。
    2. 感受野不匹配:传统卷积核(如3x3)具有固定的几何形状和大小,无法适应遥感图像中目标多变的尺度和长宽比。感受野过大引入背景噪声,过小则特征提取不全。
      本文旨在凭借显式的位置引导和动态的感受野调整,在深层网络中“找回”小目标,并精准提取其特征。
  • 动机图解分析

    • 结合图 1 (Fig. 1) 与 图 3 (Fig. 3)

      结构图1

      结构图3

      • 图 1存在严重的相干斑噪声,导致目标与背景对比度低。这说明了任务的就是展示了光学图像(VisDrone)和SAR图像(SSDD)的典型样本。能够看出,目标(如车辆、船只)极小且密集,SAR图像中更数据难度
      • 图 3 (Visual comparison of feature maps)是核心动机图。
        • 第一行(Baseline):随着网络层级加深(从C3到C5),小目标在特征图上的高亮响应点逐渐模糊甚至消失。这直观展示了**“特征淹没”**问题。
        • 第二行(PG-DRFNet):引入位置引导后,即使在深层特征图(C5),小目标的位置依然保持高亮响应。这对比有力地证明了**位置引导模块(PGM)**能够有效保留小目标的空间存在感,解决了深层特征丢失的问题。

3. 主要创新点

  • 1:提出了位置引导模块(PGM)
    设计了一种跨层级的位置信息传输机制。利用浅层特征图中保留较好的空间位置信息生成“位置图(Position Map)”,并将其作为先验知识传递给深层网络,指导深层特征聚焦于小目标所在区域,奏效防止了小目标在深层特征中的“消失”。

  • 2:设计了动态感知卷积(DPC)与动态感受野模块(DRF)
    提出了一种新的卷积算子DPC。它通过特征构造、特征聚合和动态感知三个步骤,能够根据输入特征的内容自适应地调整卷积的感受野形状和权重。这使得网络能够针对不同形状和尺度的遥感目标(如细长的船只或方形的储罐)生成最优的特征表示。

  • 3:提出了组合检测头(Combination Head)结构
    打破了传统检测头仅囊括分类和回归分支的惯例,引入了一个辅助的“位置图预测分支”。在训练阶段,利用PGM生成的二值化位置掩码作为监督信号,强迫网络学习更精准的目标位置分布,从而辅助提升主检测头的性能。

4. 方法细节

  • 整体网络架构
    PG-DRFNet 的整体架构(如图 2 所示)基于经典的ResNet + FPN结构进行了深度改良。

    结构图2

    1. 输入 (Input):接收任意尺寸的遥感图像。
    2. 主干网络 (Backbone):图像经过ResNet提取特征,得到不同层级的特征图(C1-C5)。
    3. 位置引导路径:在FPN的特征融合过程中,引入PGM。它并不只是轻松的横向连接,而是将浅层(如C2)生成的“位置掩码”传递给深层,与深层特征进行融合(相乘或拼接),使深层特征“感知”到目标位置。
    4. 动态特征提取:在特征融合后,特征图经过DRF模块(内部核心是DPC卷积)。这里不再应用标准卷积,而是利用DPC根据特征内容动态调整感受野,提取对小目标更鲁棒的特征。
    5. 输出 (Output):特征图送入Combination Head。除了输出常规的类别(Class)和包围盒(Box),还额外输出一个位置预测图(Position Map),用于辅助训练。
  • 核心创新模块详解

    • 对于 模块 A:位置引导模块 (PGM)

      • 内部结构:PGM 接收来自浅层的高分辨率特征图。首先凭借一个1 × 1 1\times11×1卷积将通道数压缩为1,得到初步的显著性图。然后使用 Sigmoid 激活函数将数值归一化到 [0, 1]。
      • 数据流动
        1. 生成掩码:对归一化后的图进行二值化处理(设定阈值),生成一个二值的Position Map §,其中1代表可能存在目标的区域,0代表背景。
        2. 特征引导:该 Position MapP PP会被下采样(Downsample)以匹配深层特征图的尺寸。
        3. 融合:下采样后的P PP与深层特征图进行元素级相乘(Element-wise Multiply)
      • 设计目的:浅层特征对小目标的位置非常敏感。借助生成“位置掩码”并以此过滤深层特征,相当于给深层网络戴了一副“眼镜”,让它只关注掩码为1的区域,直接屏蔽掉大量的背景噪声,从而解除小目标被淹没的问题。
    • 对于 模块 B:动态感知卷积 (DPC) / 动态感受野模块 (DRF)

      • 内部结构该模块的核心算子,分为三个步骤:特征构造(FC)、特征聚合(FA)和动态感知(DP)。就是:DPC
      • 工作机制
        1. 特征构造 (FC):利用十字形卷积(Cruciform convolution)生成基础的特征群,类似于将标准卷积核拆解,减少参数量。
        2. 特征聚合 (FA):设计了周围聚合(SA)和中心聚合(CA)分支。SA负责收集大范围的上下文信息,CA负责聚焦中心细节。
        3. 动态感知 (DP)最关键的一步。网络根据输入特征自动学习出一组就是:这偏移量(Offsets)权重(Weights)。利用这些偏移量,卷积核的采样点不再是固定的网格,而是可以向目标区域偏移(类似可变形卷积,但更注重上下文聚合)。
      • 设计理念:传统的卷积核是正方形的,但遥感目标(如港口的船、路上的车)往往是细长的或方向任意的。DPC 允许卷积核“变形”去贴合目标的实际形状,从而在不引入过多背景噪声的情况下提取最纯净的特征。
  • 理念与机制总结
    PG-DRFNet 的核心理念是“先定位,后形变”

    • 定位(Position Guided):通过 PGM 模块,利用浅层特征的“高分辨率红利”,强制深层网络记住“哪里有目标”,消除**“看不见”**的问题。
    • 形变(Dynamic Receptive Field):通过 DPC 算子,让卷积核具备“弹性”,根据目标的胖瘦长短自动调整抓取特征的范围,解除**“抓不准”**的问题。
      两者结合,公式化地表达为:F o u t = D P C ( F i n ⊗ P G M ( F s h a l l o w ) ) F_{out} = DPC(F_{in} \otimes PGM(F_{shallow}))Fout=DPC(FinPGM(Fshallow)),即先用位置图过滤,再用动态卷积提取。
  • 图解总结
    论文的整体设计逻辑严密地应对了“动机图解”中的难题。

    • 针对 图 3中展示的“特征层级越深,小目标越模糊”的问题,PGM模块就像一个信号放大器,在深层网络即将丢失目标信号时,从浅层引入位置信号进行“特征重燃”,确保了深层特征图中目标的高响应。
    • 针对小目标尺度变化大、背景艰难的难点,DPC模块使得网络不再用死板的方框去套目标,而是用可变形的感受野去“包裹”目标。
    • 最终,Combination Head通过显式的监督信号(Loss function包含位置图的损失),强迫网络在训练过程中不断修正对小目标位置的预测,形成闭环优化。

5. 即插即用模块的作用

论文提出的核心模块具有很强的通用性和移植性,可作为“即插即用”组件优化其他网络:

  1. 位置引导模块 (PGM)

    • 适用场景:任何基于 FPN(特征金字塔)结构的检测或分割网络,特殊是针对小目标检测 任务。
    • 具体应用
      • YOLO 系列改进:能够插入到 YOLOv5/v8 的 Neck 部分(PANet/FPN),利用 P2 层(浅层)特征去指导 P4/P5 层(深层),显著提升对航拍图像中微小物体(如人群、车辆)的召回率。
      • 医学图像分割:在 U-Net 架构的跳跃连接中引入 PGM 思想,利用编码器的浅层特征生成掩码,指导解码器的深层特征恢复,有助于微小病灶(如息肉、细胞)的分割。
  2. 动态感知卷积 (DPC)

    • 适用场景:需要处理 多尺度、大长宽比目标的视觉任务,或者作为标准卷积/可变形卷积的替代品。
    • 具体应用
      • 替换标准卷积:在 ResNet 或 VGG 的最后几个 Stage,用 DPC 替换标准的3 × 3 3\times33×3卷积。由于其动态感受野特性,能更好地处理形变物体(如各种姿态的行人、动物)。
      • OCR 文字检测长条形的,DPC 的自适应感受野能比标准卷积更好地覆盖文本行,减少背景噪声干扰。就是:场景文本通常
  3. 组合检测头 (Combination Head)

    • 适用场景弱监督定位检测与分割联合训练 的任务。
    • 具体应用
      • 辅助训练策略:对于任何单阶段检测器(One-stage Detector),能够额外增加一个由1 × 1 1\times11×1卷积构成的轻量级分割分支(Position Head),利用边界框生成的二值掩码进行辅助监督。此种手段仅在训练时增加计算量,推理时可移除,能无痛提升模型对目标位置的敏感度。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦。

6. 获取即插即用代码关注 【AI即插即用】