摘要

本文面向无人机（UAV）多目标实时检测场景，构建并开源一套基于 Flask + Flask-SocketIO/HTML/CSS/JS 的端到端平台，前端提供Web 网页界面实时演示，后端以 PyTorch 集成 YOLOv5–YOLOv12（共 8 种）可选模型，实现图像/视频/浏览器摄像头三类输入的一键推理与双画面对比。系统支持进度控制（播放/暂停/续播/停止与帧位跳转）、Conf/IoU 调节、类别筛选、CSV 导出、带框结果一键下载（图片/视频/标注）与SQLite 入库，并提供登录/注册（可跳过）、模型选择/权重上传、最近记录定位与批量导出等能力。算法侧对 8 类 YOLO 基线统一复现实验，比较 mAP、F1、PR 曲线、训练曲线与推理延迟，结合 UAV 视角的尺度变化、遮挡与运动模糊给出结构化分析；系统侧给出部署脚本与浏览器端性能优化策略，提供可复现的评测与溯源链路。文末提供完整工程与数据集下载链接。

讲解视频地址：基于深度学习的无人机目标检测系统（Web系统+完整项目分享+数据集+多YOLO模型）

YOLOv12-v11/v10/v9/v8/v7/v6/v5系统（八个模型，含说明论文）合集下载：https://mbd.pub/o/bread/YZWck55rZA==
说明论文下载：https://mbd.pub/o/bread/YZWck5tubQ==
YOLOv12下载：https://mbd.pub/o/bread/YZWbmZtpaw==
YOLOv11下载：https://mbd.pub/o/bread/YZWbm5lvaA==
YOLOv10下载：https://mbd.pub/o/bread/YZWbm5hrZg==
YOLOv9下载：https://mbd.pub/o/bread/YZWbmp9pZg==
安装与教程文档：https://deeppython.feishu.cn/wiki/IoKBwXTYCinwy8k50cXcdWiJnKc

摘要
1. 网页功能与效果
2. 绪论
3. 数据集处理
4. 模型原理与设计
5. 实验结果与分析
6. 系统设计与实现
- 6.1 系统设计思路
- 6.2 登录与账户管理
代码下载链接
7. 结论与未来工作
参考文献（GB/T 7714）

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 网页功能与效果

（1）登录注册：提供登录、注册与一次性跳过三种入口，登录后会话在当前浏览器与多标签页生效，并保留个性化配置与历史记录；跳过模式仅保存临时令牌与最小必要设置，便于快速体验。口令使用哈希与盐存储，关键操作需二次确认，以在易用与安全之间保持平衡。
在这里插入图片描述

（2）功能概况：主导航串联“图片检测 / 视频检测 / 摄像头检测 → 模型选择 → 导出中心”，各功能均内置实时统计与结果回放。支持Conf/IoU调节、类别筛选、双画面对比、CSV导出与带框结果一键下载，检测记录可跨页共享并按关键字段高亮定位。
在这里插入图片描述

（3）视频检测：采用左右等宽、16:9自适应的同步双帧视图展示原视频与检测结果，支持进度拖拽、暂停/继续/停止与关键帧跳转。推理过程中提供队列缓冲与帧率上限控制，完成后可将缓存合成为MP4导出，并附带时序统计与错误帧标记。
在这里插入图片描述

（4）更换模型：上传权重即可切换当前YOLO版本与任务类别，类别面板与阈值区即时刷新，无需重启服务。平台兼容多套权重共存与快速回滚，结合路径规范与数据库自动迁移，确保跨平台稳定与结果可追溯。
在这里插入图片描述

（5）概览界面：首页以卡片式汇总近期任务、性能曲线与告警提示，支持按数据源与时间筛选并一键跳转至对应检测页。页面标题与品牌元素可编辑并本地保存，导出中心集中管理带框图片/视频与CSV，支持批量下载与溯源查询。
在这里插入图片描述

2. 绪论

2.1 研究背景与意义

面向无人机（UAV）巡检、安防与应急等高机动场景，目标检测系统需在高空视角、复杂背景与长距离成像下实现对小尺度、密集与弱纹理目标的低时延识别，这对算法鲁棒性与端到端可视化回溯提出了更高要求[1]。在统一评测方面，学界与工业界普遍采用 COCO 指标体系（AP@[0.5:0.95]、APs/APm/APl、Precision/Recall）以衡量精度与泛化，便于与时延、参数量与 FLOPs 的多目标权衡[2]。结合中文综述，UAV 视角常见挑战包括尺度跨度大、目标遮挡与运动模糊、强背光与高反差照明、类间相似与长尾分布等，这些因素同时影响模型训练稳定性与在线展示的一致性[3]。因此，构建“算法—系统—评测”一体化的实时平台，并在统一数据与指标下横向比较不同 YOLO 版本，对推动 UAV 实时落地具有工程与学术的双重意义[4]。

2.2 国内外研究现状

针对单阶段与两阶段检测的技术分野，RetinaNet 以 Focal Loss 缓解前景/背景极度不均衡，推动单阶段在 COCO 上取得与两阶段相当的精度与更高的推理效率[5]。Anchor-free 路线代表作 FCOS 以逐像素回归替代锚框先验，简化超参并在 COCO 上报告 44.7% AP 的稳健表现[6]；CenterNet 将目标建模为中心点，提供 37.4% AP@52 FPS 的实时权衡[7]。Transformer 范式方面，DETR 通过集合预测与二部匹配移除 NMS，但早期实时性受限[8]；RT-DETR 以高效混合编码器与查询选择实现端到端实时，在 T4 上达成 R50 53.1% AP 与 108 FPS[9]。在效率与可伸缩性上，EfficientDet 通过 BiFPN 与复合缩放在 COCO 报告 55.1 AP（D7 型号），但计算代价较高[10]。YOLO 系列方面，YOLOv7 通过可训练的 bag-of-freebies 与重参数化在 V100 ≥30 FPS 范围内报告 56.8% AP[11]；面向工业部署的 YOLOv6 在 T4/FP16 下给出约 45.0% AP 与 484 FPS 的典型表现[12]；YOLOv9 引入可编程梯度信息（PGI）与 GELAN 结构以强化轻量模型的参数利用率[12]；YOLOv10 以“一对多/一对一”一致双分配实现 NMS-free 训练，并在 640 输入下报告 v10-s 46.3% APval 与 2.49 ms（T4/FP16 TensorRT）延迟[13]。此外，Ultralytics 的 YOLO11/YOLO12 文档梳理了模型与导出链路的工程化指引，其中 YOLO12 更偏研究与原型探索、生产场景推荐优先使用 YOLO11[19]。

训练与优化策略上，YOLOX 采用 Anchor-free、解耦头与 SimOTA 动态分配，改善多尺度稳定性[14]；TOOD 的 Task-Aligned 设计显式对齐分类与回归样本选择[15]；边界框回归损失从 IoU 演进到 GIoU、DIoU/CIoU 与 FEIoU/EIoU，以几何因子与有效样本挖掘加速收敛并提升定位精度[16][17][18]。工程部署方面，TensorRT 的 INT8/FP8 量化与层融合可显著降低时延与能耗[20]，ONNX Runtime 提供静态/动态量化工具链[21]，而 Ultralytics 的一键导出流程缩短了从训练到推理引擎的迁移路径[22]。

方法对比表）

方法	范式/家族	数据集	关键改进	优势与局限	关键指标（报告）	适用场景
RetinaNet	单阶段	COCO	Focal Loss	抗样本不均衡；速度一般	39.1% AP（ICCV’17）[5]	长尾/硬负样本
FCOS	Anchor-free	COCO	per-pixel 回归	去锚框、简化超参	44.7% AP（ResNeXt-101）[6]	尺度变化/密集目标
CenterNet	Anchor-free	COCO	中心点建模	端到端实时；大目标更稳	37.4% AP@52 FPS[7]	实时/资源受限
YOLOv6-S	YOLO	COCO	工业友好设计、蒸馏	高 FPS；生态完善	45.0% AP；484 FPS（T4/FP16）[12]	量产部署
YOLOv7	YOLO	COCO	E-ELAN、重参数化	速度/精度均衡	56.8% AP（V100 ≥30 FPS）[11]	实时高精度
RT-DETR-R50	Transformer	COCO	高效混合编码器	端到端、免 NMS	53.1% AP；108 FPS（T4）[9]	低时延端到端
YOLOv10-s	YOLO	COCO	一致双分配、NMS-free	延迟极低	46.3% APval；2.49 ms（T4/FP16 TRT）[13]	实时延迟敏感

2.3 要解决的问题及其方案

（1）准确性与实时性的平衡：UAV 任务中小目标与遮挡导致召回下降，而在线展示对端到端延迟极为敏感，亟需在模型结构与后处理上同时优化[9]。方案：以 YOLOv10 的一致双分配与 NMS-free 训练为核心，结合多尺度训练与轻量骨干，力争在维持 mAP 的同时将端到端延迟控制在毫秒级[13]。
（2）环境适应性与泛化：航拍光照剧烈变化、运动模糊与场景域偏移显著，易导致误检漏检[1]。方案：采用 Anchor-free 与解耦头（YOLOX）配合 TOOD 的任务对齐采样，辅以 GIoU/CIoU/EIoU 等损失与类别重加权，提升长尾与小目标稳定性[14][15][16][17][18]。
（3）网页端交互的一致性：需要图像/视频/摄像头三源输入的同步双帧与双画面对比，并保证参数与会话一致性及可追溯导出。方案：基于 Flask+SocketIO 设计统一任务队列与参数同步，前端实现进度控制、阈值调节与一键导出，数据落库以 CSV/SQLite 形成可复现实验链路[22]。
（4）推理加速与部署可靠性：在边缘 GPU/CPU 异构环境中需兼顾吞吐与成本。方案：提供 ONNX/TensorRT 多格式导出，结合 INT8/FP8 量化与校准以获得显著加速，并保留浮点回退与日志审计[20][21]。

2.4 博文贡献与组织结构

本文贡献体现在四个方面：其一，系统化复盘 YOLOv5–YOLOv12 与主流 DETR/Anchor-free 方法在 UAV 场景的适配机理与性能边界，并据报告指标给出可追溯对比表[19]；其二，围绕 YOLOv10 的 NMS-free 训练与高效结构，结合 PGI/GELAN 与任务对齐等策略，给出贴近小目标与遮挡难点的实践方案[12][13][15]；其三，打造基于 Flask+SocketIO 的 Web 实时检测平台，覆盖图片/视频/摄像头输入、同步双帧与一键导出，形成“训练—评测—展示—归档”的闭环[22]；其四，提供 ONNX/TensorRT 导出与量化加速路径，面向边缘端的低时延部署与可维护性[20][21]。全文随后将依次展开数据集处理、模型原理与设计、实验结果与分析、系统实现与流程图、以及结论与展望等章节。

3. 数据集处理

本研究使用的无人机目标数据集共计 6988 张图像，按照训练/验证/测试三部分划分，分别为 4988/1000/1000 张（约 71.4% / 14.3% / 14.3%），默认固定随机种子 42 以保证可复现性。标注采用 YOLO 格式的归一化中心点与宽高（\(x,y,w,h\in[0,1]\)），类别字典为 {0: “无人机”}，与给定样例中蓝框与编号显示一致；从成对直方图与散点密度（见读者提供的 x–y–w–h 可视化）可观察到目标中心略集中于画面中部，\(w,h\) 呈明显长尾，小目标占比较高，这与航拍场景的远距取景与视角多变相吻合。样例拼图显示数据覆盖晴天/阴天、城市/郊野/室内展陈与逆光/强反差等多域场景，并存在旋翼/前臂遮挡、尺度跨度大与背景干扰等难点；为减少数据泄露，建议在正式训练前对近重复帧或相似图片进行哈希去重，并在拆分后做一次交叉检验，确保同一素材簇不跨越不同子集。

Chinese_name = {'0': "无人机"}

在这里插入图片描述

围绕上述难点，预处理采用 letterbox 以保持长宽比并将输入统一为 640 或 1280 边长；增强策略以 Mosaic（启用 0.5 概率）+ 多尺度训练（0.5–1.5 缩放）+ 随机水平翻转 为主，辅以 HSV/JPEG 压缩抖动、随机透视与轻度旋转（±10°），用以抵御光照变化与俯仰角扰动；考虑无人机在真实场景中常见的局部遮挡与运动模糊，加入 Copy-Paste 构造稠密目标、MotionBlur/GaussianNoise 与 CutOut 增强以提升对遮挡与拖影的鲁棒性，同时默认禁用垂直翻转以避免违背重力与地平线先验。标注清洗阶段建议剔除归一化后 \(w\) 或 \(h<0.01\) 的框、裁剪越界坐标并合并 IoU>0.95 的重复框；为提升小目标可见度与收敛稳定性，可在训练前对类别为“无人机”的小框样本进行轻度过采样，并在评测端维持一致的 Conf/IoU 阈值设置与图像尺寸。经此流程，数据集在“单类（无人机）+ 多域场景”的条件下能够为后续 YOLOv5–YOLOv12 的统一训练与对比提供稳定且可追溯的基线。
在这里插入图片描述

4. 模型原理与设计

本文以 YOLOv12 为主线实现无人机目标实时检测，遵循单阶段、Anchor-free 与解耦检测头的范式。整体由“骨干（Backbone）—颈部（Neck）—头部（Head）”三部分构成：骨干延续 CSP/C2f 一类的分组残差与跨阶段部分连接以降低重复梯度与计算量；颈部以自顶向下与自底向上融合的 FPN/PAN 结构汇聚 \(P3!-!P5\) 多尺度特征，可选启用 \(P2\) 以增强小目标（远距无人机）召回；头部采用分类与回归解耦设计，分别输出类别概率与边界框/对象性分支以加速收敛并提升密集场景定位稳定性。与 ResNet/MobileNet/EfficientNet 的启示一致，我们以“更浅的早期层更多高分辨率特征、更深层聚合语义”的层级组织，保证在 UAV 场景的强背光、运动模糊与尺度跨度下仍具备低时延与足够的判别力。

在具体结构上，卷积-归一化-激活的基本块可表为 \(y_{i,j,c}=\sum_{u,v,k}W_{u,v,k,c},x_{i+u,j+v,k}+b_c\)，并在 C2f/CSP 中用分组与跨阶段拼接缓解梯度冗余；空间金字塔池化快速变体（SPPF）用序列最大池化近似多尺度上下文。为增强远距小目标的可分性，文中在颈部引入可学习加权融合：先对每条分支权重做非负归一化 \(\hat{w}*i=\frac{\mathrm{ReLU}(w_i)}{\sum_j\mathrm{ReLU}(w_j)+\varepsilon}\)，再得 \(y=\sum_i \hat{w}*i x_i\)，避免简单相加导致的信息淹没。针对背景复杂与旋翼遮挡，我们在骨干高层加入轻量注意力：通道注意力用 SE 形式 \(z_c=\frac{1}{HW}\sum*{i,j}x*{i,j,c},\ s=\sigma(W_2\delta(W_1 z))\) 抑制冗余通道；当需要长程依赖时，可选 Transformer 编码块，其多头自注意力为

\[\mathrm{MHA}(X)=\mathrm{Concat}(\mathrm{head}_1,\dots,\mathrm{head}_h)W^O,\ \mathrm{head}=\mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d_k}}+M\right)V, \]

其中 \(Q!=!XW^Q,,K!=!XW^K,,V!=!XW^V\)，\(M\) 为掩码，\(d_k\) 为键维度。解耦头以两条支路并行：分类支路采用 BCE/CE，回归支路预测 \(t_x,t_y,t_w,t_h\) 并解码为 \((x,y,w,h)\)，同时输出对象性以在 Anchor-free 网格上抑制背景噪声。网络整体架构图如下图所示：
在这里插入图片描述

损失与任务建模方面，定位采用 IoU 家族损失以兼顾重叠、中心距与尺度一致性。基本 IoU 为 \(\mathrm{IoU}=\frac{|B\cap B^{gt}|}{|B\cup B^{gt}|}\)；CIoU 综合三项几何因素：

\[\mathcal{L}*{\mathrm{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2}+\alpha v,\quad v=\frac{4}{\pi^2}!\left(\arctan\frac{w^{gt}}{h^{gt}}-\arctan\frac{w}{h}\right)^{!2},\ \alpha=\frac{v}{(1-\mathrm{IoU})+v}, \]

其中 \(\rho\) 为中心距离，\(c\) 为外接对角线；当 UAV 小目标对宽高敏感时，采用 EIoU 的分解惩罚

\[\mathcal{L}*{\mathrm{EIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2}+\frac{(w-w^{gt})^2}{w_c^2}+\frac{(h-h^{gt})^2}{h_c^2}, \]

以直接约束 \(w,h\) 与对应外接尺寸 \(w_c,h_c\)。分类采用标签平滑的交叉熵

\[\mathcal{L}*{\mathrm{CE}}=-!\sum*{c}\big[\hat{y}_c\log p_c+(1-\hat{y}_c)\log(1-p_c)\big],\ \hat{y}_c=(1-\epsilon)y_c+\epsilon/K, \]

缓解类间相似带来的过拟合；必要时引入蒸馏/对比正则：蒸馏以温度 \(\tau\) 的 KL 项 \(\tau^2\mathrm{KL}(p_t^\tau\Vert p_s^\tau)\) 促使学生网络对难例保持教师的软分布，实例级对比学习则在同图不重叠背景上采负样、在同一无人机多尺度裁片上采正样，提升遮挡与尺度变换下的判别。

训练与推理策略围绕“实时 + 小目标”优化。学习率采用余弦退火 \(\eta_t=\eta_{\min}+\tfrac{1}{2}(\eta_{\max}-\eta_{\min})(1+\cos(\pi t/T))\) 配合 warmup；批归一化（BN）与 EMA 参数滑动提升稳定性，必要时在高分辨率输入上引入 DropBlock/随机深度以防过拟合。多尺度训练与 Mosaic/Copy-Paste/轻度运动模糊增强与第 3 章的数据分布相呼应，显式提升远距与遮挡样本的召回。推理端默认 NMS（IoU/DIoU/Soft-NMS 可选），在 YOLOv10/12 兼容环境中亦可启用 NMS-free 的一致分配与端到端解码以降低延迟；阈值设置遵循 UAV 单类的风险偏好：当误检成本低于漏检时，提高置信度阈值的下限、降低 IoU 阈值以扩大召回，并在浏览器侧提供 Conf/IoU 的同步调节与双画面对比来校准观感与指标的一致性。整体设计以“轻量骨干 + 多尺度融合 + 解耦头 + IoU 系列损失 + 工程侧 NMS/NMS-free 可切换”为核心，使平台在 GPU/CPU/TensorRT 多后端与图像/视频/摄像头三源输入下均能稳定达到可视化实时与可追溯评测的目标。

5. 实验结果与分析

本节在统一训练与评测配置下完成 8 组 YOLO 基线的横向对比。数据集为单类“无人机”，划分为 4988/1000/1000（train/val/test），默认 640 输入、相同增强与优化器设置，在 RTX 3070 Laptop 8GB 上统计预处理/推理/后处理用时，并报告 Precision/Recall/F1、mAP@0.5、mAP@0.5–0.95。
在这里插入图片描述

从整体趋势看，单类无人机任务在各模型上均达到极高的精度：n 系列中 YOLOv9t 取得最高 mAP50=0.9654、F1=0.9511，但推理时延相对偏高（Inf≈16.5 ms），而 YOLOv8n 以端到端 10.17 ms（1.95+6.83+1.39 ms）成为本组时延最短的方案。
在这里插入图片描述

s 系列中 YOLOv11s 给出最高 mAP50=0.9662，而 YOLOv8s 则以端到端 11.39 ms（2.31+7.66+1.42 ms）成为速度最佳。与之对应的 PR 曲线在 Recall≈0.95 之后出现轻微陡降，说明极高召回区间仍有少量长尾样本未被充分覆盖。
在这里插入图片描述

F1–Confidence 曲线在 Conf≈0.41 附近达到峰值（约 0.95），据此平台默认将网页端检测阈值设置为 0.40–0.45 以兼顾误检与漏检的观感一致性。归一化混淆矩阵显示正样本召回在 0.97 左右，背景被误判为“无人机”的比例极低，主要错误来自远距小目标被漏检与强背光场景中的边缘截断。
在这里插入图片描述

就训练过程而言，mAP50（B）随 epoch 的收敛曲线表明多数组合在 40 epoch 左右已趋于平台期，后续提升主要来自难例的稳定拟合；个别型号（如 v10n）在早期出现抖动，与其“一对多/一对一”一致分配与 NMS-free 训练策略有关，但最终收敛到与其他模型接近的水平。结合“n/s”两档规模与 FLOPs/Params 的统计，轻量 n 系列在不牺牲太多精度的前提下提供了更好的时延；小型 s 系列的上限精度略好，适合对画质与远距细节更敏感的视频检测。

下表摘取各组最佳精度与最佳速度模型，给出关键指标，便于工程选型与网页端默认模型配置：

组别	型号	Params(M)	FLOPs(G)	端到端时延(ms) = Pre+Inf+Post	F1	mAP50	mAP50-95	结论
n（轻量）—精度最佳	YOLOv9t	2.0	7.7	19.67	0.9511	0.9654	0.6147	精度第一，时延偏高，适合离线评测或高画质图像
n（轻量）—速度最佳	YOLOv8n	3.2	8.7	10.17	0.9493	0.9617	0.6041	速度第一，综合最均衡，推荐网页摄像头/视频默认
s（小型）—精度最佳	YOLOv11s	9.4	21.5	13.47	0.9460	0.9662	0.6134	精度第一，适合视频离线处理/高分辨率图片
s（小型）—速度最佳	YOLOv8s	11.2	28.6	11.39	0.9530	0.9634	0.6137	F1 与时延兼优，适合1080p 视频在线演示

两档模型的端到端时延（ms）与主要指标还呈现如下可解释的结构性差异：YOLOv6n/YOLOv6s 由于轻量骨干与蒸馏设计，推理延迟在同档内保持较低（Inf≈6.8–8.6 ms），但 mAP50 稍低于 v9/v11 的新结构；YOLOv10n/10s 在后处理阶段几乎为 0.6 ms，体现出 NMS-free 的优势，但整体时延仍受主干/颈部计算与实现细节的影响；YOLOv7-tiny/YOLOv7 推理时延明显偏高，说明旧式重参数化与更深的 ELAN 结构在本硬件上不占优。综合而言，在线 Web 预览建议首选 YOLOv8n（轻量）/YOLOv8s（小型），最高精度可选 YOLOv11s，离线评测或高置信筛查可考虑 YOLOv9t。
在这里插入图片描述

误检/漏检成因与改进建议方面，PR 曲线尾段的断崖主要来自超小尺寸无人机与极端逆光样本；部分误检来自旋翼、吊臂、三脚架等相似结构。建议在保持 640 输入的实时场景下启用 P2 特征层与TTA（水平翻转）的轻量版本；对关键视频可切换到 960/1280 输入或 s 级模型进行二次复核；在网页端将 Conf 设为 0.40–0.45、IoU 为 0.55–0.60 并开启 Soft-NMS，可在不牺牲观感的前提下减少重叠目标的漏检。针对极远小目标，训练端增加 小框过采样与 Copy-Paste 的密度，结合 EIoU/CIoU 权重微调与 类别重加权，能够进一步抬升 Recall。部署侧若切换到 TensorRT FP16/INT8，按经验可获得 1.5–3× 的吞吐提升，网页端 SocketIO 推流应同步降低关键帧间隔与队列上限以避免端到端时延堆积。

图 5-1 双条形图（n 系列：F1 与 mAP50）：
在这里插入图片描述

如上图所示，YOLOv9t 的 mAP50 略胜一筹，而 YOLOv8n 在 F1 与延迟之间保持最佳均衡。
图 5-2 双条形图（s 系列：F1 与 mAP50）：
在这里插入图片描述

YOLOv11s 的 mAP50 最高，YOLOv8s 的 F1 与端到端时延最优，适合作为视频检测默认模型。

6. 系统设计与实现

6.1 系统设计思路

系统采用四层分工：表现与交互层（浏览器端 Web UI）、业务与会话管理层（Flask + Flask-SocketIO）、推理与任务调度层（PyTorch/ONNX/TensorRT）与数据持久化层（SQLite/对象存储）。用户通过登录/注册/跳过进入概览页后，选择图片、视频或浏览器摄像头作为输入源；媒体流首先在交互层完成尺寸规范与会话绑定，随后以任务描述（模型、Conf/IoU、类别筛选、导出选项）进入调度层的统一队列，由多进程/多线程推理 Worker 取走并执行预处理、YOLO 推理与后处理，再将结果与统计信息回传。

实时性通过同步双帧推送与参数同步来保证：服务端为每个会话维护“原始帧/渲染帧”的双路缓冲，借助 SocketIO 的事件通道同步发送，前端在同一时间轴绘制左右等宽的双画面，并将滑杆与阈值的变更回写到会话上下文以生效于后续帧；视频流支持进度拖拽、暂停/继续/停止，摄像头流支持可配置帧率上限与缓冲合成 MP4 导出。权限与一致性由业务层的会话与角色控制保证，跳过模式仅具最小导出权限；所有任务的关键元数据（模型版本、阈值、时间戳、设备、耗时统计）均随结果入库，确保复现实验与审计。

可扩展性体现在权重热切换与导出/统计的集中化。模型管理器维护 YOLOv5–YOLOv12 的注册表，上传权重后即可切换当前会话的后端引擎（Torch/ONNX/TensorRT），类别面板与推理头自动刷新；导出中心按任务聚合 CSV、带框图片与视频并支持批量下载与溯源查询；数据库采用自动迁移策略保证结构演进时的向后兼容，监控接口提供 FPS、GPU 利用率与排队时延的观察项，用于线上调优。

图 6-1 系统流程图

说明：展示平台从系统初始化到多源输入、推理与前端联动的全链路闭环；双帧通道用于“原帧+检测帧”的同步可视化。

图注：蓝色为表现/交互相关节点，绿色为推理与调度，橙色为统计、导出与持久化。

** 图 6-2 系统设计框图**

说明：体现四层分工与关键模块边界，以及典型数据与控制流向。

在这里插入图片描述

图注：左侧为浏览器端可见交互，右侧为后端服务与数据域；控制流（参数/会话）与数据流（媒体/结果）在调度器汇合后分发到推理与持久化。

6.2 登录与账户管理

在这里插入图片描述

系统在用户打开登录界面后根据“已有账号/注册/跳过”三种分支处理，会话与权限在后端统一管理：已有账号路径通过口令哈希比对完成身份校验并颁发令牌；注册路径遵循强口令与唯一性校验，成功后即刻登录；跳过模式建立临时会话，仅开放最小权限以保障体验与安全。进入主界面时载入个性化配置与历史记录，确保参数面板与导出中心的上下文一致；资料修改在会话内即时生效并写入数据库，注销与切换账号会清理会话与缓存以避免跨用户污染，整个流程与主检测任务解耦但共享统一的审计与溯源链路。

代码下载链接

如果您希望获取博客中提及的完整资源包，包含测试图片、视频、Python文件(*.py)、网页配置文件、训练数据集、代码及界面设计等，可访问博主在面包多平台的上传内容。相关的博客和视频资料提供了所有必要文件的下载链接，以便一键运行。完整资源的预览如下图所示：

在这里插入图片描述

资源包中涵盖了你需要的训练测试数据集、训练测试代码、UI界面代码等完整资源，完整项目文件的下载链接可在Gitee项目中找到➷➷➷

完整项目下载、论文word范文下载与安装文档：https://deeppython.feishu.cn/wiki/IoKBwXTYCinwy8k50cXcdWiJnKc

完整安装运行教程：

这个项目的运行需要用到Anaconda和Pycharm两个软件，下载到资源代码后，您可以按照以下链接提供的详细安装教程操作即可运行成功，如仍有运行问题可私信博主解决：

Pycharm和Anaconda的安装教程：https://deepcode.blog.csdn.net/article/details/136639378；

软件安装好后需要为本项目新建Python环境、安装依赖库，并在Pycharm中设置环境，这几步采用下面的教程可选在线安装（pip install直接在线下载包）：

Python环境配置教程：https://deepcode.blog.csdn.net/article/details/136639396；

7. 结论与未来工作

本文围绕无人机目标实时检测的应用需求，完成了从数据治理、模型训练到 Flask+SocketIO Web 展示与导出的端到端平台搭建，集成 YOLOv5–YOLOv12 八类模型并给出了统一的评测与溯源链路。实验表明，单类“无人机”在我方数据集上整体精度较高，YOLOv9t 取得本组最佳 mAP50，而 YOLOv8n/YOLOv8s 在端到端时延上更具优势，适合作为浏览器摄像头与视频检测的默认配置；YOLOv11s 提供更高的精度上限，适合离线复核与高分辨率图像处理。系统侧的同步双帧、阈值/IoU 即时联动、CSV/带框一键导出与 SQLite 入库，使“训练—评测—展示—归档”形成闭环，既满足线上演示的流畅性，又确保结果可追溯与可复现。总体来看，该平台在精度—效率—可用性之间实现了均衡，对机械器件/航拍巡检等近邻任务具有良好可迁移性：只需替换权重与类别字典，即可复用前后端链路与评测脚本。

未来工作将从模型、系统与数据三个维度持续演进。模型侧将探索更轻量化与结构化稀疏、蒸馏+量化（FP16/INT8）与动态多尺度输入的联合策略，并在 NMS-free 训练、轻量注意力和实时 Transformer（如 RT-DETR 类）上做工程化权衡；同时引入多模态融合（RGB+文本先验/遥感元数据）以提升复杂背景下的小目标召回。系统侧计划完成Docker 化与Compose/Helm 部署、分布式任务队列（推理 Worker 弹性伸缩）与WebRTC 低时延推流，完善RBAC 角色权限与审计日志、国际化(i18n) 与多租户隔离，并接入可观测性（指标/日志/链路追踪）以实现 A/B 评测与线上回滚；面向边缘端，将完善 Jetson/CPU 后端与TensorRT 引擎热切换。数据侧将建设主动学习与持续标注闭环，结合数据版本管理与漂移监测（分布/PSI 或 KL 指标）与难例挖掘与再训练流水线，进一步降低极端逆光、超小尺度与遮挡场景的漏检率。通过以上升级，平台将从“可用”迈向“可规模化运维”的阶段，持续支撑无人机与工业视觉的实时检测落地。

参考文献（GB/T 7714）

[1] 欧阳权, 张怡, 马延. 基于深度学习的无人机航拍目标检测与跟踪方法综述[J]. 计算机工程与应用, 2024.
[2] Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: Common Objects in Context[C]//ECCV, 2014.
[3] 罗会兰, 彭珊, 陈鸿坤. 目标检测难点问题最新研究进展综述[J]. 计算机工程与应用, 2021.
[4] 曹家乐, 李亚利, 孙汉卿, 等. 基于深度学习的视觉目标检测技术综述[J]. 中国图象图形学报, 2022.
[5] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//ICCV, 2017.
[6] Tian Z, Shen C, Chen H, et al. FCOS: Fully Convolutional One-Stage Object Detection[C]//ICCV, 2019.
[7] Zhou X, Wang D, Krähenbühl P. Objects as Points[C]//CVPR, 2019.
[8] Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]//ECCV, 2020.
[9] Zhao Y, Lv W, Xu S, et al. DETRs Beat YOLOs on Real-time Object Detection[C]//CVPR, 2024.
[10] Tan M, Pang R, Le Q. EfficientDet: Scalable and Efficient Object Detection[C]//CVPR, 2020.
[11] Wang C-Y, Bochkovskiy A, Liao H-Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time detectors[EB/OL]. 2022.
[12] Wang C-Y, Yeh I-H, Liao H-Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[C]//2024.（并参照：Li C, Li L, Geng Y, et al. YOLOv6 v3.0: A Full-Scale Reloading[EB/OL]. 2023.）
[13] Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. 2024.
[14] Ge Z, Liu S, Wang F, et al. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. 2021.
[15] Feng C, Zhong Y, Gao Y, et al. TOOD: Task-Aligned One-Stage Object Detection[C]//ICCV, 2021.
[16] Rezatofighi H, Tsoi N, Gwak J, et al. Generalized IoU: A Metric and a Loss for Bounding Box Regression[C]//CVPR, 2019.
[17] Zheng Z, Wang P, Liu W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[C]//AAAI, 2020.
[18] Zhang Y-F, Ren W, Zhang Z, et al. Focal and Efficient IoU Loss for Accurate Bounding Box Regression[J]. Neurocomputing, 2022.
[19] Ultralytics. YOLO11/YOLO12 文档与性能说明[EB/OL]. 2024–2025.
[20] NVIDIA. Working with Quantized Types — TensorRT Documentation[EB/OL]. 2025.
[21] ONNX Runtime. Quantize ONNX Models — ORT Docs[EB/OL]. 2025.
[22] Ultralytics. Model Export（ONNX/TensorRT 等）— Docs[EB/OL]. 2025.

posted @ 2026-04-21 22:53 逗逗班学Python 阅读(14) 评论(0) 收藏举报

刷新页面返回顶部

deeppython

最新YOLO实现的无人机目标实时检测平台（Flask+SocketIO+HTML_CSS_JS）

摘要

1. 网页功能与效果

2. 绪论

2.1 研究背景与意义

2.2 国内外研究现状

2.3 要解决的问题及其方案

2.4 博文贡献与组织结构

3. 数据集处理

4. 模型原理与设计

5. 实验结果与分析

6. 系统设计与实现

6.1 系统设计思路

6.2 登录与账户管理

代码下载链接

7. 结论与未来工作

参考文献（GB/T 7714）

公告