TNNLS 2025 | 简化版可变形卷积DCNv3——可变形空间注意力,CV任务涨点起飞!

前言 本文提出了一种新的轻量级卷积神经网络(CNN)架构DSAN,通过设计可变形条形卷积Deformable Strip Convolution(DSCN)和可变形空间注意力Deformable Spatial Attention(DSA),解决了DCNv3在轻量级CNN中因稀疏采样导致性能不足的问题,在密集预测任务中实现了更高的效率和精度。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自AI缝合术

仅用于学术分享,若侵权请联系删除

CV方向的准研究生们,未来三年如何度过?

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

一、论文信息

论文题目:DSAN: Exploring the Relationship between Deformable Convolution and Spatial Attention中文题目:DSAN:探索可变形卷积与空间注意力机制的关系

所属单位:浙江省安全应急智能信息处理重点实验室(温州大学)等

二、论文概要

Highlight

图8. 可视化展示展示了不同的下游任务。左列呈现了ADE20K验证集的语义分割掩码,而另一列展示了COCO 2017验证集的锚框和实例分割掩码。
图2. 稀疏采样可视化示意图。DCNv3通过偏移的蓝色采样点来判断是否激活中心的红色采样点。
图7. DCNv3与采用不同带状卷积的DSA(包括带状常规卷积、带状DCNv3和DSCN)的类激活映射可视化结果。输入图像源自ImageNet1K验证集,通过Grad-CAM方法生成。

1. 研究背景:

  • 研究问题:本文针对可变形卷积神经网络(DCNv3)在轻量级CNN中的应用问题展开研究。尽管DCNv3在计算机视觉任务中表现出色,但其主要关注重型模型,难以适配计算资源有限的小型设备。同时,DCNv3在轻量级CNN中未能充分发挥其优势,主要原因是稀疏采样的限制。该问题的研究有助于推动轻量级CNN在边缘设备上的高效部署,并提升密集预测任务(如语义分割)的性能。
  • 研究难点:在解决上述问题时,本文面临以下关键挑战:首先,直接增大DCNv3的卷积核尺寸虽然可以缓解稀疏采样问题,但会导致计算负载、内存消耗和训练速度的显著增加,使其不适配轻量级场景;其次,如何在保持可变形采样能力的同时降低计算复杂度是一个技术难点;最后,如何设计一种既能替代DCNv3又能减少参数和内存消耗的模块,以实现轻量级CNN的高效特征提取。
  • 文献综述:可变形卷积(DCN)系列方法在提高卷积操作对目标形状适应性方面取得了显著进展,包括DCNv1、DCNv2及其改进版本DCNv3。此外,其他相关研究如DSC、DeBut、DIKS等也通过设计不规则卷积核或改变采样策略来增强形状适应性。然而,这些方法多集中于重型模型,缺乏对轻量级CNN的适用性研究。另一方面,基于注意力机制的空间特征提取方法(如MSCA和LKA)展示了在全局采样范围内的潜力,但仍受制于规则采样的限制。最近的工作InternImage结合DCNv3在多个视觉任务中取得SOTA结果,但其庞大参数量限制了其在轻量级场景中的应用。这些研究为本文提供了理论基础和技术启发,但也凸显了轻量级方向的空白。

2. 本文贡献:

  • 可变形条形卷积:为了解决DCNv3在轻量级CNN中的不足,提出了一种新的核心操作DSCN。DSCN通过限制不规则采样到单轴并使用线性插值代替双线性插值来简化DCNv3的核心操作。此外,DSCN移除了调制掩码分支,从而减少了参数和计算负载。具体来说,DSCN的计算复杂度随着内核大小线性增加,而DCNv3的计算复杂度则呈平方增长。两层线性插值相比一层双线性插值理论上可以将计算负载减少到63.2%。
  • 可变形空间注意力:基于DCNv3和空间注意力之间的相似性,提出了一种新的视觉特征提取模块DSA。DSA由沿x和y轴的一对DSCN操作、两个1×1卷积核、一个5×5深度可分离卷积核、GELU激活函数以及空间注意力逐元素乘法组成。这些组件共同实现了在空间域内的不规则采样,继承了DCNv3的全局不规则采样特性,同时保持了轻量化。
  • DSAN架构设计:DSAN通过嵌入块和基本块构建轻量级CNN骨干网络。嵌入块用于调整输入张量的空间大小和通道数,基本块负责从输入张量中提取视觉特征。DSAN具有四个阶段的经典结构,每个阶段由多个基本块堆叠而成,其中核心视觉提取模块是DSA。最终,这些嵌入块和基本块堆叠在一起形成轻量级CNN骨干网络DSAN。

三、创新方法

 

一、DSAN整体架构

图6. DSAN整体架构示意图。该网络采用四级层级式串联结构,每个阶段由若干基础模块堆叠而成,其核心视觉特征提取模块为动态稀疏注意力机制(DSA)。每个基础模块通过动态稀疏注意力层、前馈网络层和批量归一化层的残差连接实现堆叠。网络前端嵌入模块由标准卷积层与批量归一化层构成。二、DSA(Deformabl
图4. DCNv3及其演进过程。我们尝试通过这些流程图揭示调制掩码与空间注意力机制的相似性。(a)展示了DCNv3单元的处理流程。(b)和(c)展示了具有等效DCNv3处理流程的单元。"DCN运算"代表DCNv3的核心操作。线性运算作用于通道域。术语"DWConv"和"DPConv"分别表示深度可分离卷积及其与逐点卷积的组合。符号⊙
图5. DSCN、DSA和FFN的组件与处理流程。(a)展示沿x轴和y轴的两个DSCN核心操作(Op.);(b)呈现由一对DSCN操作、作用于通道域的两个线性运算及GELU激活函数组成的DSA;(c)显示包含两个线性运算、深度卷积与点卷积组合及GELU激活函数的FFN。

DSA 的提出基于对 DCNv3 和空间注意力机制相似性的发现。通过将 DCNv3 的调制掩码分支替换为空间注意力机制,从而减少参数和内存消耗,并结合简化的核心操作 DSCN 来实现可变形采样。主要实现过程:

1. DSCN 的引入:DSCN 是 DCNv3 核心操作的简化版本,保留了可变形采样的特性,同时减少了计算量和参数量。DSCN 使用线性插值代替双线性插值,并限制了变形采样到单轴(x 或 y),避免因核大小增加而导致计算负载二次增长。

2. 调制掩码分支的替换:DCNv3 的调制掩码分支被替换为类似于空间注意力的模块。空间注意力机制通过逐元素乘法实现,进一步减少了参数和内存消耗。

3. 空间注意力的融合:在 DSA 中,使用一对 DSCN 操作分别沿 x 轴和 y 轴方向实施可变形采样。结合空间注意力机制,学习到不规则的采样分布,形成多种形状的感受野。

4. 信息提取与偏移张量修正:第一个 DSCN 操作提取沿某一轴的空间信息时,另一轴的空间信息会发生临时变化,导致第二个 DSCN 学习到的偏移张量可能不准确。因此,特征张量不能简单地通过两个连续的 DSCN 操作,需要其他卷积核辅助特征提取。

公式化描述:DSA 的核心公式基于对 DCNv3 的改进,将调制掩码分支整合到空间注意力模块中。

其中,wO_1 * ( )表示深度卷积和点卷积的组合操作。O_2 和 W' 分别表示两个线性操作。M' 是调制掩码的重塑版本,x 是输入特征图。

 

四、实验分析

1. 数据集与实现细节:实验使用了ImageNet1K、ADE20K、Cityscapes和COCO等多个数据集进行评估。ImageNet1K是一个包含1,000个类别的大规模图像分类数据集,ADE20K专门用于语义分割任务,Cityscapes专注于自动驾驶场景下的语义分割,而COCO则是许多计算机视觉任务的大规模数据集。所有模型均在配备八块RTX 3080Ti GPU节点上进行训练。

2. 消融实验:通过消融研究验证DSA关键组件的有效性,包括沿x和y轴的双DSCN操作以及注意力乘法机制。实验结果表明,去除沿x和y轴的DSCN操作后,模型在ImageNet1K验证集上的准确率分别下降了1.2%和1.0%,在ADE20K验证集上的mIoU分别下降了1.3%和0.7%。去除注意力机制后,各指标也有不同程度的下降。

3. 消融对比实验:将DSA与不同配置的卷积核进行对比,包括普通条形卷积、条形DCNv3和大内核DCNv3。实验结果表明,DSCN在参数数量和内存消耗方面显著优于其他配置,同时保持甚至超越其性能水平。特别是在语义分割任务中,DSA结合DSCN的推理速度比大内核DCNv3快2.1倍,比条形DCNv3快1.2倍。

4. 图像分类:DSAN-T在ImageNet1K验证集上的top-1准确率达到76.4%,相比VAN-T和MSCAN-T分别提高了1.0%和0.5%。DSAN-S在参数和计算量分别减少33.4%和33.3%的情况下,达到了82.3%的top-1准确率,与InternImage-T相差仅1.2%。

5. 语义分割:DSAN-T在ADE20K验证集上的mIoU达到43.5%,相比SegNeXt-T提高了1.2%。DSAN-S在Cityscapes验证集上的mIoU达到81.5%,相比SegFormer-B2差异仅为0.7%。这些结果表明,DSAN在密集预测任务中表现出色,尤其在参数和计算量较少的情况下,仍能取得较高的分割精度。

6. 目标检测:DSAN-T在COCO 2017验证集上的mAP达到42.6%,相比VAN-T提高了2.4%。尽管DSAN-S在性能上略逊于InternImage-T,但仍然优于VAN-B、ResNet50和ConvNeXt-T等模型。这表明DSAN在目标检测任务中也具有良好的适应性和性能。

五、结论

  • 主要工作:本研究提出了一种解决DCNv3在轻量级CNN中应用问题的方法,通过优化核心操作和视觉特征提取单元,设计了DSCN和DSA,成功提升了轻量级CNN的形状适应性。实验结果表明,DSAN在多种视觉任务中表现出色,尤其是在语义分割任务中,能够在较少参数和计算要求下取得更好的分割效果。
  • 创新点与贡献:DSCN通过简化DCNv3的核心操作,显著降低了计算负载和内存消耗,同时保持了全局可变形感受野。DSA通过用空间注意力替代调制掩码分支,进一步减少了参数和内存消耗。这些改进使得DSAN在图像分类、语义分割和目标检测等任务中表现出色。
  • 未来工作:尽管DSAN在多项任务中表现出色,但在某些任务上仍存在轻微差距。未来工作可以进一步优化模型结构,提升在其他视觉任务中的表现。同时,探索更多轻量级CNN的设计方案,以满足不同应用场景的需求。

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

posted @ 2025-05-20 10:11  CV技术指南(公众号)  阅读(55)  评论(0)    收藏  举报