深入解析:LARS:基于自适应通道注意力与大核自适应的遥感小目标检测网络
摘要
在目标检测领域,遥感图像中的小目标检测是一项重要且具有挑战性的任务。由于尺寸和分辨率的限制,大多数现有手段常常存在定位模糊的障碍。为了解决上述问题,本文提出了一种基于自适应通道注意力和大核自适应的遥感小目标检测网络。该方法旨在增强多通道信息挖掘和多尺度特征提取,以缓解定位模糊问题。为了增强模型对不同尺度遥感图像中小目标特征的关注,本文引入了一个自适应通道注意力块。该块根据输入特征维度应用自适应注意力加权,引导模型更好地关注局部信息。为了减轻大核卷积造成的局部信息丢失,设计了一个大核自适应块。该块根据检测区域周围的上下文动态调整周围空间感受野,提高模型提取遥感小目标周围信息的能力。为了解决样本分类过程中的识别混淆问题,提出了一种层批归一化方法。该方法增强了自适应学习的一致性分析能力,从而减少了由样本误分类引起的模型分类精度下降。在DOTA-v2.0、SODA-A和VisDrone数据集上的实验表明,所提出的手段达到了最先进的性能。
关键词:遥感图像;小目标检测;特征提取;自适应通道注意力;大核自适应
1. 引言
遥感图像中的目标检测是计算机视觉领域的一个重要研究方向,其开发和应用是推动军民遥感应用的重要途径,具有广阔的市场前景。这项任务面临的重要困难之一是遥感图像的获取方式和拍摄距离导致图像中的目标尺寸小、特征不明显 [1,2]。如表1所示,根据参考文献[3],可以根据特定区域的大小对检测到的目标进行分类。小目标的这一特性导致目标信息量相对有限,也增加了特征提取的难度,因此受到了学术界的广泛关注 [4,5]。
遥感图像检测主要采用基于锚框和无锚框结构的网络。基于锚框的网络在检测过程中利用预定义的锚框,预测目标相对于锚框的相对位置和大小来完成分类和定位 [6-8]。另一方面,无锚框模型直接回归目标的位置,避免依赖预定义的锚框,从而增强了网络对各种目标形状和尺寸的适应性 [9–11]。虽然这两种类型在通用目标检测中都取得了显著成果,但在处理遥感图像中的小目标时,它们各有优缺点。基于锚框的方法需要仔细设计和调整锚框的大小和数量,使得网络的设计和调优更加复杂。相比之下,无锚框结构通过直接回归目标的位置和大小,可以避免锚框匹配过程中的潜在错误。因此,无锚框网络在小目标检测中更受青睐。然而,由于遥感图像中目标尺寸和比例的变化,以及无锚框网络对局部特征点的依赖,现有网络在处理遥感图像时往往达不到预期效果。因此,需要一种适用于遥感图像中小目标的新型检测网络。它应该引导模型更多地关注小目标的特征,并减少图像周围局部信息的丢失。这种方法将缓解定位模糊问题。
为了增强模型对遥感图像中小目标特征的关注,引入了注意力机制。这种方法在遥感图像检测领域已有相当广泛的应用 [12]。注意力机制帮助模型关注目标区域,解决遥感图像中尺度、形状和方向变化带来的挑战,从而提高检测和识别的准确性及鲁棒性。虽然传统的注意力机制可以提升模型性能,但它们常常忽略通道间的位置相关性 [13]。此外,标准注意力机制中使用固定大小的卷积管理来捕捉特征相关性,可能导致小目标局部信息的丢失,从而产生定位模糊。在引导模型关注小目标的同时,考虑更广的感受野以提取更全面的特征也很重要。
为了提取更广泛的输入特征并捕获更广泛的上下文信息,一些研究者采用了更大的卷积核 [14-16]。经过增加感受野,这些手段考虑了目标的更多局部特征;因此,它们在遥感图像处理中取得了显著的应用和成功 [17,18]。然而,这些方法常常忽略了测距上下文问题,即遥感图像中不同大小目标的局部和全局相关关系。此种疏忽可能导致细节信息的丢失,从而造成遥感图像中小目标的错误检测。
此外,由于批归一化(BN)[19]在训练和测试过程中都依赖于批数据,它可能导致测试时批统计信息的变化,影响模型的检测性能。相比之下,层归一化(LN)[20]更注重单个样本的独立性。LN独立地对每个样本的所有特征通道进行归一化,强调每个样本的特征。然而,由于LN没有考虑批次内样本之间的相关性,它可能忽略批次样本之间共享的一些共同特征和统计信息。这可能导致归一化效果不稳定并引起分类混淆。
为了解决上述局限性,本文提出了一种基于自适应通道注意力和大核自适应的遥感小目标检测网络(LARS)。选择经典且具有代表性的无锚框网络YOLO作为网络架构,这不仅有助于验证所提出方法的有效性,而且在有限的实验中也展示了其广泛的适用性。针对上述提到的遥感图像不同尺度下对小目标特征关注不足的困难,提出了一个自适应通道注意力(ACA)块。该块根据输入特征通道调整卷积核大小,并应用自适应注意力加权,引导模型关注局部信息。为了克服大核卷积处理小目标时的信息丢失挑战,提出了大核自适应(LKA)块。LKA块将一个大核分解为几个较小的卷积,在保留广泛感受野的同时保留更多细节特征信息。ACA块使网络能够动态调整对不同通道的注意力,以提高模型对小目标的敏感性;之后,利用提取的注意力信息为LKA块分配权重,以更好地关注小目标信息。两者的结合确保了注意力机制增强每个小目标特征,并由扩展的感受野进行处理。这使得模型能够更好地提取小目标周围的上下文信息,从而使网络能够在更广的范围内准确检测小目标,同时减少定位模糊性并增强小目标的检测。考虑到传统归一化方法中样本相关性的问题,提出了层批归一化(LBN)用于归一化计算,并将其集成到ACA和LKA块中。最后,在DOTA-v2.0 [21]、SODA-A [3] 和 VisDrone [22] 数据集上进行了大量实验,证明了LARS模型以及每个块设计的有效性。
本文有以下三个贡献:
- 为了解决处理不同尺度特征时对遥感小目标特征关注不足的障碍,提出了ACA块。该块根据输入特征维度应用自适应注意力加权,引导模型更好地关注局部信息。
- 设计了LKA块,以解决大核卷积导致遥感图像局部信息丢失而引起的遥感小目标误检困难。该块根据检测区域周围的测距背景动态调整周围空间感受野,并由ACA块提取的权重信息引导,增强模型提取小目标周围上下文信息的能力。
- 设计了LBN方法,以解决样本间相关性引起的分类混淆问题。该手段提高了自适应学习过程中的一致性分析能力,缓解了因样本误分类导致的模型分类精度下降。
2. 相关工作
遥感图像中的小目标检测涉及检测和定位小尺寸物体的任务,这通常受到物体分辨率低和噪声等因素的阻碍。当前遥感小目标检测模型通常通过改进搜索策略、使用区域提议方法和执行损失函数回归来提高性能。此外,还引入了注意力机制和大尺寸卷积核来进一步提高检测准确性和鲁棒性。
基于搜索的手段在检测过程中通过滑动窗口方法生成锚框,将窗口向右或向下移动一定步长,直到覆盖整个图像。Jiang等人[23]通过提出一种检测输电塔的模型,解决了无人机图像中输电塔的自动检测问题,增强了检测的鲁棒性。然而,此种方法忽略了目标周围的全局上下文信息,难以准确区分小目标,并且容易产生漏检或误检。
基于区域提议的方法通过在基层分割和合并相似区域来生成候选区域,然后使用深度学习模型进行目标检测和定位。Ren等人[24]改进了R-CNN以适应光学遥感图像中的小目标检测任务。Lim等人[25]提出了一种上下文感知的目标检测方法,以应对有限的小目标信息带来的挑战。虽然这些方法在一定程度上提高了检测性能,但在处理遥感图像时往往会产生大量不准确的候选区域。这导致小目标的定位模糊和识别错误。
基于损失函数回归的方法使用特征提取器提取图像特征,并通过优化损失函数直接预测目标的边界框位置和大小。这种方法消除了对额外候选区域生成和分类计算的需求,献出了一种更直接、更高效的定位方法。Yan等人[26]提出了一种多级特征融合网络,以解决遥感图像中微弱小目标检测中信息不足和背景噪声的问题。Fan等人[27]针对遥感图像中多尺度目标和繁琐背景的挑战,引入了一种无锚框、高效的单阶段目标检测方法。然而,这种方法生成的边界框通常缺乏精确定位,导致回归模型预测边界框位置和大小时的不稳定性。
随后,引入了注意力机制来增强模型对关键特征的关注,从而提高遥感图像中小目标的识别。Du等人[28]经过设计一个基于空间注意力机制的增强多尺度特征融合网络,解决了遥感图像中小目标尺寸小和分布密集的问题。Paoletti等人[29]提出了一种新的多注意力引导网络,启用详细特征提取器和注意力机制来识别图像中最具代表性的视觉部分,以改进遥感高光谱图像分类的特征处理。Yan等人[30]探索了低成本稀疏标注的潜力,并引入了一种完全依赖于涂鸦标注的端到端RSi-SOD方法。Liu等人[31]通过提出一种基于注意力的多尺度特征增强和融合模块算法,解决了传统特征金字塔网络在处理遥感图像中各种尺度变化时面临的挑战。尽管这些方法可以关注到一些重点的特征信息,但它们通常利用固定大小的卷积来计算通道间的相关性。而且,对于高分辨率和多波段的遥感图像,标准的通道注意力方法在处理不同大小的特征时,无法充分关注小目标特征,这可能导致局部信息的丢失,从而导致定位模糊的问题。
一些研究发现,大卷积核可以覆盖更广泛的输入特征,这有助于捕获更广泛的上下文信息。Wang等人[16]提出了一种基于特征捕获增强和宽感受野注意力的大核卷积目标检测网络,以解决小感受野中关键信息不突出的问题。Dong等人[32]引入了一种新颖的具有大卷积核解码网络的Transformer,以应对遥感图像中语义信息模糊、细节和边界预测不准确的问题。Sharshar等人[33]研究了一种将LSKNet主干与DiffusionDet头部集成的目标检测模型,以解决航空图像中小目标检测、密集元素管理和不同方向考虑的难题。Li等人[17]提出了一种轻量级的大选择核网络,以解决遥感场景中先验知识提取的难题。就算这些途径通过考虑更大的感受野取得了良好的结果,但使用大核卷积未能有效利用遥感图像中不同大小目标的局部和全局测距上下文。这可能导致细节信息的丢失,从而造成遥感图像中小目标的错误检测。
通过综上所述,尽管当前的遥感小目标检测办法能够获得良好的结果,但仍然存在挑战。由于遥感图像中小目标的尺寸和尺度差异很大,需要解决因对小目标特征关注度低和定位精度不足引起的定位模糊问题。因此,有必要探索一种适用于上述问题的新处理方式。
3. 方法
3.1. 网络概述
整体模型结构分为三个部分:骨干网络、颈部网络和头部网络,如图1所示。在骨干网络部分,启用ACA块来捕获图像不同通道中具备的特定语义特征,如颜色和纹理。该块内设置的自适应加权使模型能够更多地关注局部信息,引导模型关注小目标区域。然后,LKA块分析该区域与周围感受野的局部和全局相关性,准确提取输入图像的高级特征表示,用于后续的目标检测任务。颈部部分使用特征金字塔网络(FPN)架构进行特征融合和上采样,以进一步处理骨干网络提取的特征,增强模型对不同尺度目标的敏感性。头部部分主要提取不同大小目标的类别和位置信息,利用三个无锚框检测头进行信息融合。
3.2. ACA块
遥感图像通常由多个波段的光谱数据组成,每个波段对应不同的光谱范围。通道信息提供了丰富的光谱特征,这对于区分各种土地覆盖类型、材料和植被状况至关重要。相反,过度强调空间特征可能导致冗余信息,使模型学习到错误的特征。本文提出的ACA块解决了关注区域特征的问题,其结构如图2所示。
在训练过程中,大家有一个输入集合x∈(B,C,H,W)x\in\left(B,C,H,W\right)x∈(B,C,H,W)高度和宽度。卷积操作用于从输入图像进行初始特征提取。为了增强通道之间的连接,所有通道共享相同的学习参数,即,就是,其中B是批大小,C是通道数,H和W分别
χi=σ(∑j=1kwjxj,xij∈Rik)\chi_{i}=\sigma\left(\sum_{j=1}^{k}w^{j}x^{j},x_{i}^{j}\in R_{i}^{k}\right)χi=σ(j=1∑kwjxj,xij∈Rik)
这里,W是一个C×CC\times CC×C的参数矩阵。对于每个像素xix_{i}xi,本文只考虑k个单位范围内的感受野,其中RikR_{i}^{k}Rik表示y的k个相邻通道的集合。为了捕获适当的通道交互信息,可以手动调整不同卷积管理的核大小k以考虑不同的感受野。然而,这过于繁琐。因此,设计了一种自适应方法,根据输入通道自动调整卷积核大小k,实现对不同维度特征的自适应卷积。在k和C之间设置一个映射:
k=τ(C)=∣(log2C+b)/η∣oddk=\tau(C)=\left|\left(l o g_{2}^{C}+b\right)/\eta\right|_{o d d}k=τ(C)=(log2C+b)/ηodd
这里,∣⋅∣odd\left|\cdot\right|_{o d d}∣⋅∣odd表示最接近 . 的奇数,η和b是线性映射的参数。通过映射τ,高维通道具有更长范围的交互,而低维通道由于使用非线性映射而具有较短范围的交互。
3.3. LKA块
使用更大的卷积核可以增加感受野,从而捕获更多的图像信息,进而获得更丰富的特征表示。然而,在遥感图像的小目标检测中,如此大的感受野可能导致信息过度混合。这使得难以准确捕捉小目标的细节,导致信息模糊和丢失。因此,本文提出了LKA块,它在KA块内部使用矩阵乘法分解原始的大核卷积,从而增加感受野并计算一系列多个远程感受野。LKA块的结构如图3所示,内部KA块结构在算法1中展示。
大核自适应 (LKA)
LKA块的一个关键方面。核大小和膨胀率的增加确保了感受野足够快地扩展。因此,本文定义了第i个卷积的核大小就是分解核数量的确定kik_{i}ki 、膨胀率 did_{i}di 和感受野 RiR_{i}Ri 如下:
ki−1≤ki,d1=1,di−1<di≤Ri−1R1=k1,Ri=di(ki−1)+Ri−1\begin{aligned}k_{i-1}&\leq k_{i},d_{1}=1,d_{i-1}<d_{i}\leq R_{i-1}\\R_{1}&=k_{1},R_{i}=d_{i}(k_{i}-1)+R_{i-1}\end{aligned}ki−1R1≤ki,d1=1,di−1<di≤Ri−1=k1,Ri=di(ki−1)+Ri−1
基于上述规则,本文将核大小为23的卷积分解为核大小分别为5和7的较小卷积。这种手段允许进行更详细的特征提取。本文应用一系列具有不同感受野的卷积来实现上述操作:
y0=X,yi+1=Fi(yi)y_{0}=X,y_{i+1}=F_{i}\left(y_{i}\right)y0=X,yi+1=Fi(yi)
这里,F表示启用核kik_{i}ki的深度卷积。假设有N个分解的卷积核,在执行深度卷积后,使用一个1×11\times11×1的卷积层进行进一步处理。每个分解的卷积核通道被缩减到原始大小的1N\frac{1}{N}N1,然后进行拼接。这增强了模型捕获不同感受野大小特征的能力,使模型能够同时考虑多尺度信息。随后,分别对特征的每个通道执行最大池化和平均池化操作,增强模型对每个通道内特征信息的感知,使模型对每个通道信息的处理更加灵活。
Savg=Pavg(Y),Smax=Pmax(Y)S_{a v g}=P_{a v g}\big(Y\big),S_{m a x}=P_{m a x}\big(Y\big)Savg=Pavg(Y),Smax=Pmax(Y)
这里,SavgS_{a v g}Savg表示经过平均池化获得的空间特征,SmaxS_{m a x}Smax表示通过最大池化获得的空间特征。为了反映不同描述符之间的信息交互,将这两个空间池化特征进行拼接。然后,应用sigmoid激活函数以获得每个分解核的单独空间选择掩码。这使得模型能够自适应地选择所需的不同大小的特征:
S^=σ(Concat(Savg,Smax))\widehat{S}=\sigma\left(C o n c a t\left(S_{a v g},S_{m a x}\right)\right)S=σ(Concat(Savg,Smax))
这里,σ(⋅)\sigma(\cdot)σ(⋅)表示sigmoid函数。之后,分解后的特征凭借其相应的空间选择掩码进行加权,并凭借卷积层F(⋅)F(\cdot)F(⋅)进行融合。最后,引入学习到的权重信息以增强对输入特征的关注。输出输入特征X和Z之间的逐元素乘积:
X^=X⋅F(∑i=1NS^i⋅Yi)\widehat{X}=X\cdot F\left(\sum_{i=1}^{N}\widehat{S}_{i}\cdot Y_{i}\right)X=X⋅F(i=1∑NSi⋅Yi)
3.4. LBN方法
在遥感小目标图像检测中,特征通常细微且数量稀疏,而传统的归一化方法主要是批归一化(BN)和层归一化(LN)。BN通过使用所有批样本的每个特征通道的均值和方差来归一化输入数据,它首要依赖于批样本的统计信息。然而,BN在小批样本和单样本上可能表现不佳,因为它依赖于批样本的统计信息。因此,它可能引入噪声并导致样本间交互和对整体统计信息的依赖。相比之下,LN对每个样本的所有通道执行归一化,可以保持样本间的独立性。然而,正因为如此,LN忽略了全局信息,导致统计信息不太稳定。
在本文中,我们结合了这两种归一化技巧,使得网络在处理小目标时能够兼顾批样本的统计信息,并提出了LBN归一化办法。LBN首先对每个样本的通道进行归一化以确保样本间的独立性;然后,计算当前层输出的均值和方差,并运用这些统计量对整个批次进行归一化,以利用批次间的相关性。这种双重归一化策略可以在处理小批次样本和单样本时保持稳定性,同时可以利用批统计信息来提高整体模型性能。它既保证了特征的独立性,又利用了全局统计数据,独特适用于小目标检测任务。假设特征X的维度为(N,C,H,W)\left(N,C,H,W\right)(N,C,H,W),BN在整个批次上对每个通道进行归一化,而LN在所有通道上对每个样本进行归一化。以下公式表示沿(N, H, W)维度的归一化:
x1=xi−1B∑i=1Bxi(1B∑i=1N(xi−1B∑i=1Bxi)2)2+ϵx_{1}=\frac{x_{i}-\frac{1}{B}\sum_{i=1}^{B}x_{i}}{\sqrt{\big(\frac{1}{B}\sum_{i=1}^{N}\bigl(x_{i}-\frac{1}{B}\sum_{i=1}^{B}x_{i}\bigr)^{2}\big)^{2}+\epsilon}}x1=(B1∑i=1N(xi−B1∑i=1Bxi)2)2+ϵxi−B1∑i=1Bxi
变量B代表样本数量,ε是一个添加的平滑项,取一个小的正浮点数,以防止除零,确保BN计算的稳定性。如果将公式中的变量B替换为通道数CCC通过,就能够得到LN的计算结果。然后,我们引入一个可学习参数λ来平衡两个方向上的归一化输出。
y=λx1+(1−λ)x2y=\lambda x_{1}+(1-\lambda)x_{2}y=λx1+(1−λ)x2
y是归一化途径的输出。在本文中,LBN被嵌入到ACA和LKA块中,加速了模型的训练过程。
4. 实验
本节描述了大量实验,以评估模型在遥感小目标检测中的有效性和性能。首先介绍了实验中启用的数据集,然后解释了实验设置和评估指标。末了,展示了消融研究和对比实验的结果,并讨论了观察到的现象和趋势。
4.1. 数据集
DOTA-v2.0。DOTA-v2.0是由武汉大学发布的一个基准数据集,广泛用于遥感图像中的目标检测。该数据集包含11,268张高分辨率航空和卫星图像以及1,793,658个标注实例,涵盖18个物体类别,如飞机、港口等。DOTA-v2.0资料集的高分辨率图像和不同的物体类别为评估不同检测算法的性能提供了丰富的测试样本。作为一个公开的基准数据集,DOTA-v2.0提供了统一的评估工具,便于与现有方法进行直接比较,并确保了研究的可重复性和可比性。DOTA-v2.0中每个类别的详细信息如表2所示。
| 类别 | 缩写 | 实例数 | 类别 | 缩写 | 实例数 |
| 飞机 | PL | 23,930 | 大型车辆 | LV | 89,353 |
| 船只 | SH | 251,883 | 小型车辆 | SV | 1,235,658 |
| 储罐 | ST | 79,497 | 直升机 | HC | 893 |
| 棒球场 | BD | 3834 | 环岛 | RA | 6809 |
| 网球场 | TC | 9396 | 足球场 | SBF | 2404 |
| 篮球场 | BC | 3556 | 游泳池 | SP | 20,095 |
| 田径场 | GTF | 4933 | 集装箱起重机 | CC | 3887 |
| 港口 | HB | 29,581 | 机场 | AP | 5905 |
| 桥梁 | BR | 21,433 | 直升机停机坪 | HP | 611 |
| 训练集 | / | 268,627 | 测试集/测试开发集 | / | 353,346 |
| 验证集 | / | 81,048 | 测试挑战集 | / | 1,690,637 |
SODA-A为小目标检测设计的,由西北工业大学发布。该信息集包含2513张高分辨率航空图像,其中872,069个物体用定向框标注,涵盖九个类别,如飞机、直升机、船只等。SODA-A数据集中高密度和多方向的小目标标注为评估遥感小目标检测算法提供了理想的测试样本。SODA-A中每个类别的详细信息如表3所示。就是。SODA-A数据集
| 类别 | 实例数量 |
| 飞机 | 31,529 |
| 直升机 | 1395 |
| 小型车辆 | 463,072 |
| 大型车辆 | 15,333 |
| 船只 | 61,916 |
| 集装箱 | 138,223 |
| 储罐 | 35,027 |
| 游泳池 | 26,953 |
| 风车 | 26,755 |
| 训练集 | 344,228 |
| 验证集 | 159,573 |
| 测试集 | 296,402 |
| 总计 | 800,203 |
VisDrone。VisDrone内容集是用于无人机视觉任务的基准,由中国科学技术大学发布。该数据集由10,209张高分辨率图像和视频帧组成,涵盖79,658个标注实例,分布在10个物体类别中,包括行人、车辆、交通灯等。VisDrone内容集的场景多样性和丰富的物体类别使得可以分析模型在复杂城市环境和动态场景中的性能。此外,VisDrone信息集中物体的多角度和多尺度特征也可以用来验证模型在实际应用中的鲁棒性和泛化能力。表4展示了VisDrone数据集中每个类别的详细信息。
| 类别 | 实例数量 |
| 行人 | 79,337 |
| 人群 | 27,059 |
| 自行车 | 10,477 |
| 汽车 | 144,865 |
| 厢式货车 | 24,950 |
| 卡车 | 12,871 |
| 三轮车 | 4803 |
| 带篷三轮车 | 3243 |
| 巴士 | 5926 |
| 摩托车 | 29,642 |
4.2. 实现细节
本文报告了在DOTA-v2.0和VisDrone数据集上获得的实验结果,以评估模型的性能。为确保公平性,采用了统一的数据处理手段:将原始图像裁剪为1024×1024的图块,相邻图块之间的像素重叠为150。所有实验均使用单个NVIDIA 4090 GPU进行,模型训练和测试的批大小为6。
使用随机梯度下降(SGD)优化器进行训练,学习率为0.01,动量为0.9,权重衰减为0.0005。分类损失使用BCE计算,边界框回归损失启用CIoU和DFL计算。
在ImageNet材料集上进行了400个epoch的预训练。对于消融研究,模型训练了20个epoch,以确保所提出的方法在有限的迭代次数内能取得良好结果。对于DOTA-v2.0和VisDrone数据集的对比实验,模型训练了50个epoch,并分别使用每个类别的mAP50和总类别的mAP50,以及mAP50和mAP95作为评估指标来评估模型在两个数据集上的性能。
4.3. 对比实验
在DOTA素材集上的结果。所提出的途径在DOTA-v2.0 OBB基准测试上取得了最先进的性能,mAP50达到63.01%。
从表5允许看出,与之前的方式相比,LARS在检测方面取得了显著改进,实现了更高的平均精度和更准确的定位。每个类别的检测结果以及整体检测精度使用折线图和条形图在图4和图5中直观呈现。
在SODA-A数据集上的结果。本文进一步强调了LARS在SODA-A素材集上的性能。实验结果展示了我们的方法与SODA-A数据集上其他多阶段和单阶段检测方法相比的性能。
如表6所示,我们的方法在所有指标上都取得了显著的性能提升,尤其是在小目标检测方面。APeS,APrS,APgS\mathrm{A P_{e S},A P_{r S},A P_{g S}}APeS,APrS,APgS 和 APN\mathrm{A P_{N}}APN分别代表极小、相对小、一般小和正常目标的检测精度[3]。我们的模型在所有四个指标上都优于所有其他对比技巧,这表明我们的方法在检测小目标方面具有更高的准确性。此外,我们的方法在整体平均精度(AP)和高置信度检测(AP75\mathrm{A P}_{75}AP75)方面也表现良好,分别达到49.4和59.3,证明了我们的方法在复杂航空摄影场景中检测小目标的准确性。


在VisDrone素材集上的结果。本文进一步检验了LARS在VisDrone数据集上的性能。VisDrone素材集具有更丰富的场景和更多的挑战,这使我们能够更全面地评估模型的性能和泛化能力。接下来,本文将分析VisDrone材料集上的实验结果,以进一步验证所提出方法的有效性和泛化性,实验结果如表7所示。
图6列出了在VisDrone数据集上的对比测试结果,显示LARS在处理各种具有挑战性的场景时表现良好。与其他方法相比,LARS在mAP评估指标上取得了更高的值,这表明模型不仅更有效地覆盖了真实物体,而且更准确地识别了物体边界。
| 方法 | mAP50 (%) | mAP95 (%) |
| UTY5S [53] | 36.41 | 20.18 |
| IGUIT [54] | 35.32 | 20.04 |
| DCFL [45] | 32.14 | |
| IOD [55] | 42.93 | 24.62 |
| HIC-YOLOv5 [56] | 44.32 | 25.99 |
| QueryDet [57] | 48.15 | 28.71 |
| CEASC [58] | 50.74 | 28.46 |
| DSH-Net [59] | 51.81 | 30.94 |
| SAHI [60] | 43.59 | - |
| EdgeYOLO [61] | 44.85 | - |
| Ours | 52.87 | 33.92 |
总体而言,实验结果表明,本文提出的方法不仅在DOTA-v2.0数据集上取得了显著的性能提升,而且在VisDrone数据集上也实现了优异的检测性能,这证明了该技巧的通用性和有效性。此外,结果证明所提出的方法具有良好的泛化能力。

4.4. 消融实验
本节报告了在DOTA-v2.0数据集上进行的消融实验结果,以研究该方式的有效性。
不同的分解策略。假设理论感受野为23,对大核分解数量的消融研究结果如表8所示,可视化结果如图7所示。从实验结果来看,将大核分解为核大小为5、膨胀率为1的卷积和另一个核大小为7、膨胀率为3的卷积,可以获得最佳性能。
| (k,d) 序列 | 精确率 (%) | 召回率 (%) | mAP50 (%) | mAP95 (%) |
| (23, 1) | 68.53 | 50.47 | 52.94 | 32.68 |
| $(3,1)+(5,1)+(7,1)+(9,1)$ | 70.90 | 51.54 | 54.45 | 34.27 |
| $(5,1)+(7,3)$ | 73.97 | 54.72 | 57.34 | 41.12 |
不同的插入块。在本实验中,逐步将ACA块、LKA块和LBN添加到模型中,随后组合启用这三个块。采用相同的内容集和训练配置,并在验证集上评估性能。如表9所示,实验结果表明,同时添加ACA,LKA,\mathrm{A C A},\mathrm{L K A},ACA,LKA,和 LBN 后,精度得到进一步提高。检测结果的可视化对比如图8所示。合并所有块能够更准确地定位物体,减少了漏检和误检。此外,在物体分布密集的区域,与运用部分块相比,使用所有块可以减少检测框之间的重叠,从而更准确地区分单个物体(图9)。这表明两个块相互补充,可以共同提升模型的性能。
| LKA块 | ACA块 | LBN | 精确率 (%) | 召回率 (%) | mAP50 (%) | mAP95 (%) |
| 70.62 | 50.08 | 52.33 | 36.06 | |||
| √ | 67.98 | 51.38 | 53.63 | 37.72 | ||
| √ | 72.34 | 51.69 | 54.28 | 37.95 | ||
| √ | √ | 66.54 | 53.22 | 55.95 | 38.85 | |
| √ | √ | √ | 73.97 | 54.72 | 57.40 | 41.12 |



4.5. 结果分析
本节分析了在DOTA-v2.0资料集上的实验结果。
图10展示了各种评估指标,包括损失函数、mAP、召回率和精确率。实验中损失指标的整体模式显示持续下降,表明模型在训练过程中边界框预测精度逐渐优化,能够准确定位物体。mAP50和mAP95的持续增长表明模型在关注关键特征和扩展感受野方面表现良好,在不同的IoU阈值下取得了显著的性能提升,并展示了强大的泛化能力。在训练早期,精确率指标表现出显著波动,因为模型缺乏学习到的参数和特征。然而,在训练后期,通过ACA块进行的调整可以提取关键信息,并且LKA块能够为不同大小的物体分配相应的感受野,导致精确率逐渐稳定,收敛到最佳状态,并在不同样本上持续取得良好性能。召回率指标的持续增长反映了模型识别正样本能力的增强,导致漏检实例减少。依据提出的ACA和LKA块,模型可以更准确地关注关键特征,并更好地理解和捕获物体的上下文信息,从而进一步提高识别准确性和完整性。

通过图11展示了未运用LBN块(左图)和使用LBN块(右图)的归一化混淆矩阵,其中行代表真实类别,列代表模型预测的类别。从左上角到右下角的对角线元素代表模型正确分类每个类别的概率。能够看出,在添加LBN块后,模型在每个类别上的分类性能都有所提高,特定是在BC、GTF、BR和AP等类别中,误分类实例数量显著减少,表明LBN块实用减少了分类混淆,提高了整体检测精度。表9中所示的消融实验也证明了添加LBN块后的改进效果。具体来说,表中的实验结果显示,添加LBN块后,mAP50和mAP95分别提高了1.3%和1.66%。这表明LBN块减少了误分类,提高了整体检测性能。

此外,模型在PL和TC类别上表现出很强的区分能力,准确率超过90%。这表明模型能够准确识别这些类别并将物体与背景区分开。然而,一些PL样本被误分类为HC\mathrm{H C}HC由于PL和就是,这可能HC\mathrm{H C}HC的特征相似,使得模型难以区分它们。类似地,CC和AP等类别的低准确率可能是由于训练样本不足,导致模型无法学习到足够的特征进行准确分类。
评估目标检测模型性能的重要指标。就是PR曲线和F1-置信度曲线
PR曲线说明了在不同阈值下精确率和召回率之间的关系。通常使用曲线下面积(AUC)来量化模型的性能,面积越大表示性能越好。在PR曲线中(图12,左),大多数类别的曲线都向右上角凸出,表明模型在保持高精确率的同时也提高了召回率。这归因于LKA块提供的判别性特征表示以及ACA块增强了对物体的关注,使得组合模型能够建立更准确的定位和识别。

在F1-置信度曲线中(图12,右),横轴代表置信度阈值,纵轴代表F1分数,即精确率和召回率的调和平均值。计算公式如下:
F1=2×precision×recallprecision+recallF1=2\times\frac{p r e c i s i o n\times r e c a l l}{p r e c i s i o n+r e c a l l}F1=2×precision+recallprecision×recall
在低置信度水平下,模型的F1分数相对较低。然而,随着置信度阈值的增加,LKA块提取的特征得到充分利用,ACA块有效调整了特征通道的重要性。因此,F1分数逐渐增加,并在置信度水平为0.405时达到最高值0.62。这种改进提高了精确率和召回率,减少了误报和漏报的实例,从而构建更准确的目标定位。
图13展示了所提出模型在两个数据集上的性能。能够观察到,该模型在遥感图像小目标检测中实现了高检测精度,并在精确的多尺度目标定位方面表现良好。在DOTA-v2.0资料集上,模型准确识别了不同尺度的物体,如PL和HB,表明LARS不仅能够识别正常大小的物体,还能准确识别小尺寸物体。在VisDrone数据集上的测试结果也证明了对不同尺度物体(如汽车、自行车和行人)的准确识别。这些实验结果充分证明了所提出方法在遥感图像小目标检测任务中的有效性和可行性。

5. 结论
为了解决遥感图像小目标检测中的定位模糊问题,提出了一种基于自适应通道注意力和大核自适应的遥感小目标检测网络。提出了一个自适应通道注意力块,以增强对遥感图像中小目标的注意力机制和通道特征。该块许可引导模型更好地关注局部信息。为了缓解大核卷积处理遥感图像小目标时局部信息丢失的障碍,设计了一个大核自适应块,以动态调整物体的空间感受野,从而提高模型提取小目标周围关联信息的能力。大家还设计了一种层批归一化方法,以缓解由样本误分类引起的模型分类精度下降,并解决样本间相关性问题。大量的实验和分析证明了所提出模型带来的令人信服的改进。
尽管本文提出的网络在缓解遥感图像小目标检测中的定位模糊问题方面取得了令人满意的结果,但仍有一些方向可以进一步探索,以及一些局限性。
(1) 针对模型缺乏可解释性的问题,我们也在探索结合一些数学公式来解释模型的工作原理,以便更清晰地理解模型的内部运作和决策过程。
(2) 模型参数数量庞大,在轻量化设计方面还有改进空间。未来的研究能够侧重于经过压缩技术减少模型参数和计算复杂度,以满足资源受限环境中的应用需求。
(3) 模型的准确率仍有提升空间,独特是对于遥感小目标检测任务中的复杂背景。未来的工作可能通过优化算法或修改模型结构来进一步提高准确率和鲁棒性。
(4) 我们还发现材料集中样本数量的不平衡会显著影响检测结果。未来的研究可以考虑使用学习技巧来提高模型对样本较少类别的检测能力。
作者贡献:概念化,Y.L., Y.Y. 和 Y.A.;方法论,Y.Y. 和 Y.S.;软件,Y.S.;验证,Y.A.;初稿撰写,Y.L., Y.Y. 和 Z.Z.;审阅和编辑,Y.L., Y.A. 和 Z.Z.;可视化,Y.S.;监督,Y.L. 和 Z.Z.。所有作者均已阅读并同意论文的最终版本。
资金:本研究联合资助由国家自然科学基金(62276037)、重庆市技术创新与应用发展专项重点项目(CSTB2023TIAD-KPX0088)、重庆市科技创新重点研发项目(CSTB2023TIAD-STX0016)和重庆市技术创新与应用发展专项重点项目(CSTB2022TIAD-KPX0039)提供。
数据可用性声明:数据具备在文章中。
致谢:作者感谢本研究中采用的所有数据集的提供者。我们也感谢匿名审稿人和编辑为改进本文提出的意见。
利益冲突:作者声明无利益冲突。
浙公网安备 33010602011771号