SLBAF-Net:用于低识别环境下无人机检测的超轻量级双模自适应融合网络

SLBAF-Net:用于低识别环境下无人机检测的超轻量级双模自适应融合网络

2023

SLBAF-Net: Super-Lightweight bimodal adaptive fusion network for UAV detection in low recognition environment | Multimedia Tools and Applications

摘要

无人飞行器(UAV)检测在军事和民用领域具有重要的研究价值。然而,由于无人机在遥感图像上与天空背景的光照变化剧烈且体积极小,传统的物体检测算法通常缺乏令人满意的精度和鲁棒性。本文提出了一种自适应融合可见光和红外图像的超轻量级双模网络 SLBAF-Net,用于复杂光照和天气条件下的无人机检测。为了处理复杂的光照环境并满足机载计算机的低计算要求,本文受 YOLO 网络结构的启发,开发了一种超轻量级双模无人机探测网络。为了更有效地融合双模特征,提出了双模自适应融合模块(BAFM),对可见光和红外特征图进行自适应融合,以提高复杂环境下的探测鲁棒性。为了验证我们方法的优越性,我们建立了一个复杂的双模态无人机数据集,并与各种先进的物体检测网络进行了全面的对比实验。实验结果表明,所提出的 SLBAF-Net 在恶劣环境下的检测性能和鲁棒性方面优于其他算法,其精确率为 0.909,召回率为 0.912。此外,SLBAF-Net 还能满足机载计算机的实时要求,网络大小仅为 5.6 MB。

1.介绍

近年来,无人机因其体积小、灵活性强、安全风险系数低等特点,被广泛应用于军事和民用领域[31],如侦查[29]、救援[24]、侦察[32]和快递[3]等。无人机探测技术可使无人机执行更复杂的任务,并便于对无人机进行区域控制。目前,已开发出利用音频信号分析、雷达数据分析、射频(RF)信号分析和视觉数据分析进行无人机探测的方法[20]。有人提出了一种新颖的机器学习(ML)框架,用于在嘈杂环境中使用音频信号检测无人机 [16]。然而,利用音频信号检测无人机并不适用于嘈杂环境。有人提出了一种雷达探测和跟踪方法,用于在杂波条件下探测无人机[14]。但在雪和雾霾天气中,雷达的探测距离较短。UAV-YOLO 是一种基于 YOLOv3 的小型物体检测方法,从特殊无人机的角度进行检测[21]。但无人机探测一般有天空背景,可见光摄像机受发光影响较大。利用数据融合从声音和图像信息中检测和定位恶意无人机[16],这种方法不够轻便,无法在机载计算机上使用。总之,目前还没有适合在低识别率环境下检测无人机的检测算法,这对无人机技术的应用有重大影响。因此,本文重点研究在具有噪声和复杂光照的低识别率环境中执行无人机检测任务的无人机检测技术。

基于视觉的无人机检测方法面临的主要挑战是可见光摄像机对噪声、恶劣天气、光照变化等的高灵敏度。为了解决这些问题,我们开发了一种名为 SLBAF 网络的双模网络。该网络的输入是可见光图像和红外图像。因为红外图像的特点是可以减少阳光和雾气等外部环境的干扰,并且很容易将目标从背景中分离出来。红外图像通常用于探测和识别低分辨率物体 [35,39]。同时,可见光图像包含许多可见光边缘和物体细节,符合人的视觉特征,在物体检测方面具有更好的性能 [35];[5];[37]。因此,可见光和红外图像的融合尤其适用于复杂环境下的无人机探测任务。

本文旨在提高复杂光照和天气条件下无人机探测任务的鲁棒性和准确性。为此,我们提出了一种新的双模网络架构,利用可见光和红外特征融合进行无人机检测。我们提出了双模自适应融合模块,以更合理地利用特征。最后,我们在复杂环境双无人机数据集上进行了丰富的对比实验,以说明我们的方法的优越性。

我们的工作主要有四个方面的贡献: 我们提出了一种超轻量级的双模态自适应融合网络(SLBAF-Net),以应对低识别率环境下的无人机检测问题;我们提出了一种双模态自适应融合模块(BAFM),以更有效地融合可见光和红外特征;我们建立了复杂的双无人机数据集,其中包括夜间环境、过曝环境、干扰目标环境、遮挡复杂环境和正常环境;我们分别在正常环境和复杂的双无人机数据集上做了大量实验,以证明我们的网络的优越性。

本文其余部分安排如下。第 2 节回顾了无人机探测和融合策略的相关工作。在第 3 节中,我们首先介绍了 SLBAF-Net 的结构概述,然后描述了各网络组件的结构。 3 节中,我们首先介绍了 SLBAF-Net 的结构概述,然后详细描述了各网络组件的结构。第 4 节介绍了 SLBAF-Net 的综合实验结果和相应分析。 4. 最后,第 5 节对本文进行总结。

2.相关工作

2.1 传统检测器

经典检测器主要分为两阶段方法和单阶段方法。两阶段方法首先生成区域建议,然后通过卷积神经网络对样本进行分类。常见的两阶段物体检测算法包括 R-CNN [11]、SPP-Net [12]、Fast R-CNN [8]、Faster R-CNN [18] 和 R-FCN [6]。在物体检测领域,效率和实时性尤为重要,因此出现了通过卷积神经网络直接提取特征来预测目标分类和位置的单级方法,包括 YOLO 系列网络 [27]、[26]、[32]、[33]。虽然有很多物体检测网络,但与复杂环境下无人机检测网络相关的文献较少。

CNN-SVM 方法[7]用于检测单个移动摄像机中的小型无人机,首先稳定视频以检测快速移动的无人机。针对复杂背景下的小型目标检测,提出了 CotYOLO-v3 [38],它在 YOLOv3 的基础上增加了注意力模块,并用子像素卷积取代了上采样方法。针对航空图像中的小目标,提出了融合 RetinaNet 检测器[1],并用新的融合模块取代了 FPN 结构,提高了低级图特征的语义信息。上述无人机检测算法均基于可见光相机,而可见光相机受光线影响较大,不适合以天空为背景的无人机检测任务。相比可见光,红外摄像机在夜间、低能见度的城市环境中具有巨大优势,这说明了红外摄像机在无人机探测领域的可行性[2]。也有学者利用无人机采集可见光和热红外图像,然后建立了基于混合图像分析的水稻纹枯病识别模型。结果表明,结合可见光和热红外图像特征可以显著提高水稻稻纵卷叶螟的识别精度[19]。使用单一可见光相机难以应对复杂环境下的无人机检测任务。红外相机的应用可以弥补可见光的缺点。因此,本文围绕可见光和红外特征自适应融合的双模检测网络展开讨论。

2.2 融合方法

随着物体检测应用领域的逐渐扩大,传统的单一可见光摄像机识别已无法满足需求。近年来,基于多传感器融合的物体检测技术得到了快速发展,其精度高、鲁棒性强,可应对复杂的环境。Dual-YOLACT [25] 是一种双模态分割网络,它在 YOLACT [4] 的基础上利用 RGB 图像和激光雷达的密集深度图来提高分割精度和鲁棒性。MAF-YOLO [37] 使用 RGB 图像和红外图像进行行人检测,不受光照因素的影响。多传感器融合可以使检测性能达到一个新的高度。在本文中,我们使用可见光摄像机和红外摄像机来提高无人机在复杂环境中的检测精度。由于可见光和红外图像的互补性,人们提出了许多融合方法。有人构建了一个深度学习框架,用于生成包含红外图像和可见光图像所有特征的单一图像 [17]。有人提出了一种生成对抗网络方法 FusionGAN [23],利用生成对抗网络融合这两类信息。然而,直接融合可见光和红外图像会产生大量干扰信息,影响网络的训练效果。我们的方法使用可见光和红外特征图的自适应融合,深度特征融合使网络能够学习更有效的特征。

2.3 自适应权重

注意力对于提高网络性能尤为重要 [15]。注意力机制最早被应用于信道维度,以提高网络的代表性[12]。注意力机制经历了漫长的发展[36][10],广泛应用的 CBAM 模型是由 Woo 等人提出的[34]。然而,上述注意机制都适用于单模式网络。在双模态网络中,经常会出现一种输入质量好而另一种输入质量差的情况。例如,可见光图像在暗处是纯黑色的,而红外图像具有丰富的信息。换句话说,在黑暗环境中,红外图像的权重应尽可能大,这有利于物体检测。为了解决这个问题,有人提出了专家融合的锐化混合方法[25],它可以从互补模态中学习鲁棒内核。MAF-YOLO[37]根据可见光图像的亮度引入了双重关注模块,以达到更高的精度。本文提出了一种双模态自适应融合模块,可自动为双重输入分配权重,以提高复杂环境下的检测性能。

3 方法

3.1 系统概述

SLBAF-Net 的整体流水线如图 1 所示,主要包括双模自适应融合模块骨干网FPN 结构检测头四个部分。

  • 双模自适应融合模块由一个自适应加权块和一个通道关注块组成,旨在更有效地融合可见光和红外特征。

  • 骨干网络用于提取融合特征图上的深度特征

  • FPN(特征金字塔网络)结构能够将深层语义信息传递给底层,从而获得高分辨率和强语义特征。

  • 特征图被送入检测头,以获得检测结果。

figure 1

网络的输入是两种类型的图像,即可见光图像和红外图像,宽度为 640 像素,高度为 640 像素,三个通道(红、绿、蓝 (RGB))。输出为分类目标、检测框位置和置信度

  1. 首先通过双模自适应融合模块融合可见光图像和红外图像。
  2. 然后,融合后的特征层 \(p_0\) 被发送到骨干层进行下采样,并通过 FPN 结构进行跨层融合。
  3. 最后,特征图 \(p_4\) 被发送到检测头,用于获取检测结果。

3.2 无人机探测优化

3.2.1 融合策略

仅使用可见光摄像机的无人机探测往往会因天气或光线原因而失败,因此我们的方法是同时使用可见光摄像机和红外摄像机。目前,双数据集的融合策略可分为三种,包括数据级融合、结果级融合和特征级融合。

数据级融合是最简单的方法,它不需要修改网络结构。数据级融合网络只有一个输入和一个输出。它在进入网络之前将双数据信息融合为一个数据,但如果双数据之间存在巨大差异,则可能会混淆信息。结果级融合需要两个网络,在三种策略中计算量最大。由于这个关键原因,它不适合在车载计算机上运行。特征级融合利用了这两种方法的优势。它既能整合双数据信息,又能确保模型的轻量化。特征级融合网络有两个输入和一个输出。特征级融合策略最适合我们的目的。

3.2.2 网络结构

我们的方法主要针对小型无人机的检测,网络结构如图 2 所示。SLBAF 网络共有 17 层,为了避免小目标信息的丢失,整个网络采用了 8 × 下采样。

figure 2

双模态自适应融合模块包括自适应权重块和信道注意块,将在后面的章节中详细介绍。骨干网络是在 YOLOv5 骨干网络的基础上进行的轻量级改进,包括 CONV 模块、C3 模块和 SPPF 模块。CONV 模块是最基本的模块,包括卷积层、批处理归一化层和 SILU 激活函数。C3 模块的功能是学习残差特征。SPPF 模块是空间金字塔池化,可以获得不同尺度的特征。在进行上采样操作时,FPN 结构会融合深层特征图和浅层特征图的特征,从而获得语义性强的高分辨率特征图

在网络结构方面,可见光和红外图像经过双模自适应融合模块进行融合操作,可以提取出更多有用的特征。通过大量实验,我们得出结论:融合越早,对小目标的检测越有效。因此,可见光和红外特征层通过 BAFM 自适应地融合成一个尺寸为 640×640×16 的特征图。然后,通过主干网络将特征图下采样为 80×80×128 尺寸。最后,特征图通过 FPN 结构获得语义特征和融合特征。针对空中无人机的检测,我们使用了两个检测特征图,尺寸分别为 160×160×64 和 320×320×32。与 YOLO 系列网络相比,我们的网络结构超轻,更适合小型物体的检测。

3.2.3 损失

一般的检测网络会考虑三种误差,即位置误差、置信度误差和分类误差。我们的方法用于检测一个类别,因此不考虑分类误差。YOLOv5 [9] 的位置误差是 CIOU [42],[40] 在 CIOU 的基础上开发了 EIOU。EIOU 损失函数包括三个部分:重叠损失、中心距离损失以及宽度和高度损失。前两部分与 CIOU 相同,但宽度和高度损失直接使目标方框与锚方框的宽度和高度之差最小化,这使得收敛速度更快。我们方法的损失函数为

1744964891175

其中 \(L_{EIOU}\) 表示有效边界框回归损失; \(\rho_2\) 表示预测框中点与目标框中点之间的欧氏距离; b 表示预测框的中点;\(b^{gt}\) 表示目标框的中点;w 表示预测框的宽度;\(w^{gt}\) 目标框的宽度; \(h\) 表示预测框的高度;\(h^{gt}\) 表示目标框的高度; \(c\) 表示覆盖两个检测框中最小框的对角线距离;\(C_w\) 表示覆盖两个检测框的最小框的宽度;\(C_h\) 表示覆盖两个检测框的最小框的高度;\(L_{obj}\) 表示失去置信度;\(p_0\) 表示预测框中的目标置信度得分;\(p_{iou}\) 表示预测框和相应目标框的 iou 值; \(BCE_{obj}^{sig}\) 表示二叉交叉熵损失函数;\(w_{obj}\) 表示正样本的权重;\(K\) 表示输出特征图;\(S^2\) 表示输出特征图的单元格; \(B\) 表示每个单元格中的预测锚框;\(M_{kij}^{obj}\) 表示第 \(k\) 个输出特征图的第 \(i\) 个单元格和第 \(j\) 个锚框是否为正样本;\(x_p\)\(x_{gt}\) 表示预测向量和地面实况向量;\(\alpha_{box}\) 和 $$\alpha_{obj}$$ 表示位置误差和置信度误差的权重。

3.3 双模态自适应融合模块

在卷积神经网络的前馈过程中,所有特征都关注相同的权重。对于双输入网络来说,有时一个输入质量好,另一个输入质量差。例如,可见光摄像机在黑暗中看不到任何有效信息,但红外摄像机仍能获得丰富的信息。考虑到图像质量对检测性能的影响,我们提出了 BAFM(双模态自适应融合模块),它包括自适应权重块和信道关注块两个模块,如图 3 所示,BAFM 的运行过程如下。

Fig. 3

给定可见光特征图 \(𝐹_𝑣∈𝑅^{𝐶×𝐻×W}\) 和红外特征图 \(𝐹_𝑖∈𝑅^{𝐶×𝐻×W}\) 作为输入。然后,通过自适应权重块得到初始权重 \(𝑤_𝑣,𝑤_𝑖∈𝑅^{1×1×1}\) 并得到混合特征图 \(𝐹_m∈𝑅^{2𝐶×𝐻×W}\)。最后,混合特征图通过通道注意块得到通道权重 \(M_c∈𝑅^{2𝐶×1×1}\) 并输出 \(𝐹_O∈𝑅^{2𝐶×𝐻×W}\) 。整个过程可概括为

1744966582714

其中 \(⊗\) 表示元素相乘。C、H 和 W 表示特征图的通道、高度和宽度。

3.3.1 自适应权块

建议采用 AW(自适应权重块)来获得可见光和红外权重 \(w_v\)\(w_i\) 。AW 可分为三个步骤。第一步通过平均池化和最大池化得到两个二维权重图 \(𝑓_{𝑎𝑣𝑔}∈𝑅^{1×𝐻×W_{max}}\)\(𝑓1×𝐻×W_{𝑚𝑎𝑥}\) ,见式(5)。关于空间信息的表达,Hu 等人[13]使用平均池法计算空间统计量,Woo 等人[34]认为最大池法可以提供尽可能多的特征线索,因此我们的方法既使用了平均池法,也使用了最大池法。然后,通过并集层将这些二维权重图并集形成空间权重图,并通过卷积层进行卷积,得到高效的特征描述符 \(𝑓_𝑑∈𝑅^{1×𝐻×W}\) 。第二步,通过高效特征描述器中的最大值和平均值得到可见光特征得分 \(𝑤_1∈𝑅^{1×1×1}\) 和红外特征得分 \(𝑤_2∈𝑅^{1×1×1}\) ,见式(6)。最后,利用公式(7)得到可见光特征权重 \(𝑤_v∈𝑅^{1×1×1}\) 和红外特征权重 \(𝑤_i∈𝑅^{1×1×1}\)\(𝑓(𝑥)\) 是一个变种的 sigmoid 激活函数。通过多次实验,当 \(𝛼\) 取值为 5,\(\beta\) 取值为 0.5 时,效果相当可观。

1744967137741

其中 Conv 表示卷积层,Concat 表示连接层。Sig 表示 sigmoid 激活函数。自适应权重块的整体流程如图 4 所示。

3.3.2 信道关注模块

混合特征图 \(𝐹_𝑚∈𝑅^{2𝐶×𝐻×W}\) 是通过自适应权重块获得的,其中包括可见光和红外特征图。每个特征图都被视为一个特征检测器[41]。无论是可见光特征还是红外特征,我们都需要为更好的检测器赋予更多权重。我们参考 CBAM 中的通道关注块,其过程如图 5 所示。

figure 5

输入是混合特征图 \(𝐹_𝑚∈𝑅^{2𝐶×𝐻×W}\) ,然后使用平均池化和最大池化生成不同的描述符 \(𝑑_{𝑎𝑣𝑔}∈𝑅^{𝐶×1×1}\)\(𝑑𝐶×1×1_{max}\) 。其转发到共享网络,并通过 sigmoid 激活函数生成通道注意权重 \(𝑤_𝑐∈𝑅^{𝐶×1×1}\) 。最后,得到输出特征图 \(𝐹_𝑂∈𝑅^{2𝐶×𝐻×W}\) :

1744967455339

4 实验

4.1 数据集

4.1.1 双模态数据集

红外图像可以根据热辐射的差异区分目标和背景,并且不受天气和光线的影响。可见光图像具有更高的分辨率、纹理细节和语义信息,因此被广泛应用于视觉识别领域。然而,可见光和红外图像的双重数据集非常稀少,或者不适用于我们的研究。由于公开的双无人机数据集很少,我们利用公开的无人机数据集[30]制作了双无人机数据集,其中包含 2850 张不同类型无人机的可见光图像。我们需要制作伪红外图像来组成双数据集。具体来说,伪红外图像由在可见光图像上训练的 GAN 网络生成。Pearl-GAN 是一种用于生成伪红外图像的 GAN 网络,有关 Pearl-GAN 的更多详情,请参阅参考文献 [22]。生成的双无人机数据集如图 6 所示。最后,我们生成了一个双模态数据集,其中包含 2850 对可见光和红外图像。

figure 6

4.1.2 复杂数据集

普通的双无人机数据集无法体现红外图像的优势,因此我们还制作了复杂的数据集。为了体现红外图像的优势,我们对可见光图像进行了处理,模拟了四种复杂环境,即夜间、曝光过度、干扰目标和遮挡,如图 7 所示。可以看出,在复杂数据集上,可见光图像的质量特性大大降低。最终,复杂的双无人机数据集包括 2850 对图像,其中包括 500 对夜间图像、500 对曝光过度图像、250 对干扰目标图像和 250 对遮挡图像。

figure 7

4.2 双数据集的结果

为了设计出超轻型、高性能的网络,我们设计了五种网络结构进行比较,如图8所示。 a AF0-D16xF:在原始图像尺寸下进行自适应融合,主干网络对图像进行 16 倍下采样,仅采用 FPN 结构 b AF0-D8xF:在原始图像尺寸下进行自适应融合,主干网络对图像进行 8 倍下采样,仅采用 FPN 结构。d AF2x-D8xF:经过 2 次降低采样后进行自适应融合,图像经过主干网络 8 次降低采样,仅采用 FPN 结构。f AF0-D8xFP:在原始图像尺寸下进行自适应融合,图像经主干网络降采样 8 次,采用 FPN&PAN 结构。

figure 8

a、b 和 c 网络比较了网络深度对小物体检测性能的影响。b、d 和 e 网络对比了融合位置对小目标检测性能的影响。b 和 f 网络比较了网络结构对小目标检测性能的影响。为了更有力地说明模型结构的优越性,我们在普通双无人机数据集上对这六个网络和 Yolov5s 进行了比较。其中,Yolov5s 仅使用可见光图像进行训练。在普通双 UAV 数据集上的训练结果如表 1 所示。mAP0.5 率的实验结果如图 9a 所示,损失率如图 9b 所示。

figure 9

实验结果表明,适当增加网络深度可以提高检测性能,但网络规模和计算量也会成倍增加。更重要的是,对于小目标检测,融合越早,性能越好。我们的推论是,下采样会造成小目标信息的损失。YOLOv5s 对小型无人机目标的检测性能依然出色,map0.5 达到 0.918。但与我们的网络结构相比,YOLOv5s 的网络容量更大,计算量更大。为了选出综合性能最好的网络结构,我们定义了一个评价指标 \(𝜆\) ,见式(9),其值越大,网络的综合性能越好。从表中可以看出,AF0-D8xF 网络结构的最大 \(𝜆\) 为 6.96。最后,我们选择 AF0-D8xF 作为 SLBAF 网络结构,它具有良好的检测性能和较小的计算量。

1744967707144

4.3 复杂数据集的结果

4.3.1 融合方法比较

在无人机探测领域,探测的稳定性尤为重要。例如,侦察无人机通常在夜间执行任务。同时,由于相机的视角朝向天空,经常会受到阳光的直射和复杂的光线转换,从而使可见光相机失去作用。我们提出的双模态自适应融合模块可根据可见光和红外图像的质量为融合后的特征赋予适当的权重,使融合后的特征更加有效。为了突出我们提出的双模自适应融合模块的有效性,我们在复杂数据集上使用不同的自适应融合方法进行了实验。实验结果如表 2 所示。

CBAM 表示卷积块注意模块。CAM 表示通道注意模块。SAM 表示空间注意模块。AWM 表示自适应权重模块。BAFM 表示双模自适应融合模块。AWM-SAM 表示自适应权重模块与空间注意力模块相结合。AWM-CBAM 表示自适应权重模块与卷积块注意模块相结合。Pure 表示网络没有自适应收敛模块。mAP0.5 率的实验结果如图 10a 所示,损失率如图 10b 所示。

figure 10

从实验结果来看,SAM 的 map0.5 为 0.878,低于未分配任何权重的模块。而 AWM-SAM 的 map0.5 低于 AWM 的 map0.5。由此可见,空间注意力模块并不适合在我们的数据集上进行检测。我们推断,在检测微小物体时,空间注意力更容易受到干扰。此外,还可以得出 CBAM 在复杂数据集中的作用微乎其微。根据实验结果,我们提出的 BAFM 是自适应权重块和通道注意力块的组合,map0.5 可以达到 0.907,计算量的增加可以忽略不计,更适合双模态自适应融合。

梯度加权类别激活映射(Gradient-weighted Class Activation Mapping,Grad-CAM)通过寻找网络输出到特征图的类别置信度的偏导数来获得权重,从而实现各种视觉任务的注意力可视化,而无需进行区分[28]。为了更直观地说明我们方法的有效性,我们使用 Grad-CAM 算法绘制了图 11 所示的热图。最左边一列是可见光图像,图像中的红框是无人机。由合适的网络模型生成的热图应在红框区域内清晰突出。

figure 11

从热图上可以看出,YOLOv5 网络模型在复杂环境中的聚焦点比较混乱,因为只输入了可见光图像。而 SLBAF-pure,由于额外输入了红外图像,其关注度要比网络模型好得多,但不能有效地关注小型目标。图 11(d) 显示,纯 SLBAF 模型更关注建筑物。加入 CBAM 关注机制后,模型的关注度略有提高,但仍难以关注小目标。使用我们的 BAFM 方法,从热图来看,SLBAF 模型的关注度有了显著提高,并且更加关注小目标。与最先进的注意力机制 CBAM 相比,我们的 BAFM 方法适用于双输入网络,可让网络更加专注于小目标。

4.3.2 网络比较

为了确保实验的公平性,我们在同一台配备了酷睿 i7-9700、GeForce GTX 1080Ti 和 16GB DDR4 的电脑上训练了 100 个历元,用于测试实验。为了说明融合可见光图像的必要性,我们在红外图像上再次训练了所有单模态网络。

表 3 显示了 SLBAF 与其他几种流行的单模态检测算法性能的量化结果。SLBAF 网络的 map0.5 和 map0.95 的训练平均值分别为 0.907 和 0.35,达到了这些方法中的最高水平。YOLOv5m 是训练效果最好的单模态网络,在红外图像上的 map0.5 和 map0.95 训练结果分别为 0.904 和 0.34,仅次于 SLBAF。但 YOLOv5m 的网络规模是我们方法的 7.5 倍。在运行速度方面,由于 SLBAF 是双模网络,其 FPS 并不突出,但 29.4HZ 可以满足大多数场景的实时需求。

来自不同网络的一些结果如图 12 所示。我们选择了五张不同环境的可见光图像和相应的红外图像进行测试。可以直观地看出,我们的方法可以在所有环境中准确地检测到无人机,并且具有很强的鲁棒性。

figure 12

5 结论

本文提出了用于无人机检测的 SLBAF 网络,它是一种超轻量级自适应双模态网络。无人机的检测任务通常面临目标小、光照受限的环境。我们的方法能以较低的计算资源获得良好的检测性能。首先,我们构建并优化了网络结构,使其具有双输入、更轻便、更适合微小目标检测的特点。其次,为了在复杂光照环境下更好地检测无人机,我们提出了 BAFM,它可以根据可见光和红外特征信息的质量获得自适应的权重分配。最后,我们做了丰富的对比实验来证明我们网络的优势。实验结果表明,SLBAF-Net 在低识别率的无人机检测中具有出色的准确性和稳定的性能,SLBAF-Net 的 MAP0.5 得分为 0.915。这项工作未来的研究方向是提高红外图像的分辨率,以避免对小目标的误检。

数据可用性

本研究中生成或使用的所有数据、模型或代码均可向通讯作者索取。


posted @ 2025-05-15 23:15  酩酩羊  阅读(92)  评论(0)    收藏  举报