最新YOLO实现的遥感目标实时检测平台(Flask+SocketIO+HTML_CSS_JS)
摘要
本文面向遥感影像的多尺度小目标实时检测,构建了基于 Flask + Flask-SocketIO / HTML / CSS / JS 的 Web 网页界面平台,集成 YOLOv5–YOLOv12(共 8 种)最新实现,支持 图片 / 视频 / 浏览器摄像头三类输入,并提供 左右等宽双画面对比、视频同步双帧与 进度/暂停/继续/停止 控制。系统内置 模型选择/权重上传、Conf/IoU 调节、类别筛选、CSV 导出、带框结果一键下载、SQLite 入库、登录/注册(可跳过) 等能力,检测记录支持跨页检索与溯源。算法侧对 mAP、F1、PR 曲线、训练曲线进行统一评测与可视化,结合遥感场景特性(小目标密集、尺度差异、遮挡与光照变化)给出工程化优化与部署建议。平台前后端解耦,SocketIO 保证推理与前端渲染低延迟,支持本地与服务器部署。文末提供完整工程与数据集下载链接,并附示例配置与一键启动脚本,便于复现与二次开发。
讲解视频地址:基于深度学习的遥感目标检测系统(Web系统+完整项目分享+数据集+多YOLO模型)
YOLOv12-v11/v10/v9/v8/v7/v6/v5系统(八个模型,含说明论文)合集下载:https://mbd.pub/o/bread/YZWck59paA==
说明论文下载:https://mbd.pub/o/bread/YZWck5xqZA==
YOLOv12下载:https://mbd.pub/o/bread/YZWbmpprag==
YOLOv11下载:https://mbd.pub/o/bread/YZWbm5pqaQ==
YOLOv10下载:https://mbd.pub/o/bread/YZWbm5lraA==
YOLOv9下载:https://mbd.pub/o/bread/YZWbmp9xZQ==
安装与教程文档:https://deeppython.feishu.cn/wiki/T4o9wHiHsi1SgKkbgHbcmDp0nBg
@
1. 网页功能与效果
(1)登录注册:提供登录、注册与一次性跳过三种入口,跳过仅对当前会话生效以便快速体验。口令采用哈希与会话时效控制,支持多端并发登录的安全校验。成功进入系统后自动载入个性化配置与最近记录。

(2)功能概况:平台支持图片、视频与浏览器摄像头输入,默认以左右等宽双画面即时对比展示检测前后效果。内置 Conf/IoU 调节与类别筛选,支持 CSV 导出与带框结果一键下载;所有结果与日志写入 SQLite 以便检索与追溯。

(3)视频检测:采用同步双帧渲染与独立队列,提供进度拖动、暂停、继续与停止控制,保障时序一致性。推理缓冲可直接导出为 MP4,并在导出前保留叠框与标签信息,便于复核与分享。

(4)更换模型:上传权重即可热切换当前 YOLO 模型并即时刷新类别与阈值面板,无需重启服务。路径与命名规则跨平台兼容,数据库自动迁移保证历史记录与新模型共存可用。

(5)概览界面:首页仪表化呈现项目看板,集中展示最近任务、检测数与平均延迟,并给出模型版本与会话状态。支持按文件名与时间轴快速定位样本,CSV 列表高亮关键字段,点击即可跳转到对应导出与溯源视图。

2. 绪论
2.1 研究背景与意义
遥感影像在国土巡查、海事监管、灾害应急与城市治理中承担“广域覆盖、快速响应”的基础任务,但其小目标密集、尺度与朝向变化大、背景复杂等特征,使实时、可解释、可部署的检测系统成为刚需1。大幅面航片/卫星图像常见的长宽比极端与遮挡现象进一步加剧误检与漏检风险,促使系统在算法与工程两端同时优化以满足业务闭环的时效性与可追溯性2。面向落地应用,构建“后端低延迟推理 + 前端可视交互 + 结果归档追溯”的一体化 Web 平台,可将“数据接入—推理—回传—审计”闭环前移至业务一线,显著缩短告警到处置的链路并提升一致性。
(cjig.cn)
2.2 国内外研究现状
在数据与任务层面,DOTA 以超大幅面、多尺度与多方向标注成为航片检测的重要基准,并全面覆盖机场、港口与城区等复杂场景2。xView 提供 0.3 m GSD 的高分辨率卫星影像,强调多类目标在地理环境中的上下文关系3。VisDrone 面向无人机视角,系统汇总图像与视频检测与跟踪基准,涵盖不同天气与光照条件下的遮挡与密集目标场景4。针对遥感小目标的系统综述指出,特征表达瓶颈、前景–背景混淆与回归分支敏感是影响性能的三大根因,为模型与系统设计提供了诊断框架1。
(CVF Open Access)
在算法范式方面,定向/旋转框(OBB)建模缓解了水平框与细长、任意方向目标的不对齐问题,RoI Transformer 通过学习从水平 RoI 到旋转 RoI 的几何变换显著提升 DOTA/HRSC 的定向检测精度5。近年的中文综述进一步总结了航空遥感旋转目标检测在难点、数据与方法上的系统进展,为工程选型提供方法学依据6。
(CVF Open Access)
主流单阶段 Anchor-free 检测(如 FCOS)以逐像素回归替代先验锚框,简化匹配并提升密集场景的可召回性7。CenterNet 将目标建模为中心点并回归几何属性,降低后处理复杂性并兼顾速度与精度8。YOLOX 则以解耦头与动态标签分配为代表,在保持实时性的同时改善难例学习9。
(CVF Open Access)
在训练目标与优化层面,GIoU 提供对非重叠框可导的几何约束以缓解 IoU 梯度平台期问题10;DIoU/CIoU 进一步显式建模中心距离与宽高比,提升回归收敛速度与稳定性11;EIoU 通过分解几何差异并引入回归版 Focal 策略,有效提升小目标定位精度12。
(CVF Open Access)
YOLO 家族近年的关键演进集中在结构/分配/损失与端到端推理:YOLOv7 以可训练的“免费增强”与解耦头在实时范围内取得强基线13;YOLOv9 融合 PGI 与 GELAN,报告在相似精度下显著降低参数与计算并小幅提升 AP14;YOLOv10 提出一致性双分配,实现 NMS-free 训练并显著降低延迟15;Ultralytics 的 YOLOv8 与 YOLO11 在工程易用性、无锚头与训练流程上持续优化[16–17];2025 年的 YOLOv12 将注意力机制纳入实时检测主干,在保持实时性的同时提升精度18。
(arXiv)
与此同时,DETR 将检测视作集合预测以端到端方式弱化后处理依赖19;RT-DETR 以混合编码器与不确定性最小查询选择进入实时范畴,在 COCO 上达到 53%+ AP 与百帧级 FPS(T4)20。工业部署向 Anchor-free 与便捷部署倾斜,PP-YOLOE-l 在 COCO test-dev 上报告 51.4 mAP 与 78.1 FPS(V100),并在 TensorRT FP16 下进一步加速21;EfficientDet 以 BiFPN 与复合缩放在 D7 规模达成 55.1 AP 与显著的参数/算力优势22;RetinaNet 的 Focal Loss 为单阶段检测的正负不均衡提供了经典解法23。工程加速方面,ONNX Runtime 提供 INT8 线性量化接口,便于跨硬件落地24;NVIDIA TensorRT 则覆盖算子融合、INT8/FP16 与端到端引擎优化,实现推理链路的系统级提速25。
(arXiv)
表 2-1 典型方法与性能摘要(节选)
| 方法 | 范式/家族 | 主要数据集 | 关键技术 | 指标/延迟(原文/官方) | 优势与局限 | 参考 |
|---|---|---|---|---|---|---|
| YOLOv7 | 单阶段/YOLO | COCO | 可训练 BoF、解耦头 | 56.8% AP(≥30 FPS,V100) | 实时精度强,原生不含旋转框 | 13 |
| YOLOv10 | 单阶段/YOLO | COCO | 一致性双分配、NMS-free | 同精度较 YOLOv9-C 延迟降 46%,参数降 25% | 端到端延迟低,生态在演进 | 15 |
| YOLOv9 | 单阶段/YOLO | COCO | PGI、GELAN | 较 YOLOv8 参量 −49%、FLOPs −43%、AP +0.6% | 需结合任务细调 | 14 |
| RT-DETR-R50 | Transformer | COCO | 混合编码器、UMQ 选择 | 53.1% AP,108 FPS(T4) | 端到端、速度–精度平衡 | 20 |
| PP-YOLOE-l | 单阶段 | COCO | Anchor-free、ET-Head、TAL | 51.4 mAP,78.1 FPS(V100);TRT FP16 可达 149 FPS | 部署友好 | 21 |
| EfficientDet-D7 | 单阶段 | COCO | BiFPN、复合缩放 | 55.1 AP,410B FLOPs | 精度高但计算图较复杂 | 22 |
| RetinaNet | 单阶段 | COCO | Focal Loss | 39.1 AP,约 5 FPS | 经典基线,延迟较高 | 23 |
| RoI Transformer | 两阶段/旋转 | DOTA/HRSC | HRoI→RRoI 几何变换 | 面向定向目标 SOTA 报告 | 旋转框工程复杂度较高 | 5 |
2.3 要解决的问题及其方案
(1)准确性与实时性:密集小目标与任意方向导致漏检与延迟上升;方案采用以 YOLOv12 为核心、对比 YOLOv5–v11 的多模型框架,结合一致性分配与端到端/NMS-free 推理,减少后处理开销并稳态提升帧率15。
(2)环境适应与泛化:分辨率与成像条件跨域显著;方案引入多尺度/旋转增强与 CIoU/EIoU 等几何一致性损失,辅以迁移与半监督以增强鲁棒性11。
(3)网页交互与可溯源性:需要参数可控、过程可见、结果可追踪;系统以 Flask+SocketIO 打通“图片/视频/摄像头—推理—可视化—导出”,提供双画面对比、视频同步双帧、Conf/IoU 与类别筛选、CSV 与带框结果下载,并将检测记录入库以便追溯。
(4)系统吞吐与稳定:多源并发与大图裁片带来队列与带宽压力;方案采用 ONNX Runtime 量化与 TensorRT 引擎优化实现 INT8/FP16 加速,并以异步任务与分层缓存保障时延与稳定性24。
(arXiv)
2.4 博文贡献与组织结构
本文贡献在于:(1)面向遥感小目标给出“训练–推理–评测–Web 交互–导出追溯”的实时检测平台,工程闭环可复现;(2)在 YOLOv5–YOLOv12 统一框架下总结适配遥感密集与旋转多样性的训练与部署要点;(3)设计美观友好的网页交互,覆盖登录/注册可跳过、模型热切换、双画面对比与集中导出;(4)汇总 mAP、F1、PR 与训练曲线的系统化对比与误差诊断,并给出面向工程的优化建议;(5)提供完整工程与数据集入口,便于复现与二次开发。文章后续章节依次为:1. 网页功能与效果、3. 数据集处理、4. 模型原理与设计、5. 实验结果与分析、6. 系统设计与实现、7. 结论与未来工作。
3. 数据集处理
本研究使用提供的遥感目标检测数据集,共 9033 张影像,标注采用 YOLO 文本格式(每行为 class cx cy w h,相对坐标归一化到 [0,1]),类别清单为单类 plane(飞机),前端以 Chinese_name = {'plane': '飞机'} 完成中英文映射以便界面展示与导出一致。从样例统计图可见,x、y 近似均匀但中心区域更密集,width、height 分布明显右偏,小尺度目标占比高;拼贴可视化显示机场跑道及停机位场景中存在密集排列、遮挡与背景结构相似等情况,符合遥感小目标“密、细、乱”的特征。标注经脚本校验(归一化范围、空框/重叠异常、文件名一致性)后入库,训练阶段按需进行 letterbox 与色域标准化,推理阶段保持与训练一致的预处理管线以减少域偏移。
Chinese_name = {'plane': "飞机"}

数据集划分为训练集 8292 张、验证集 609 张、测试集 132 张,分别占 91.80% / 6.74% / 1.46%,通过固定随机种子(默认 42,可在配置中修改)确保可复现实验;考虑到单类小目标的评测方差,验证/测试样本覆盖不同地物背景与成像条件,必要时可在测试阶段采用分层采样或 K-fold 交叉验证以稳健评估。针对遥感场景的难点,增强策略以多尺度与小目标友好为原则:启用 Mosaic/MixUp 提升密集场景下的上下文多样性,随机旋转与水平/垂直翻转缓解任意朝向带来的不变性缺失,HSV 抖动与对比度/伽马调整增强光照与成像差异鲁棒性,小概率应用仿射/透视与轻度运动模糊模拟航拍位姿与传感器效应;为抑制极小框退化,最小可学习目标尺寸与尺度抖动范围与标注分布对齐,并在采样器中对小框样本适度上采以缓解长尾。清洗环节去除重复图、严重模糊与无标注异常切片,并在入库时记录数据版本与统计快照,保证后续对比实验与 Web 导出结果的可追溯。

4. 模型原理与设计
本系统以 YOLOv12 为主线,采用 Anchor-free 的单阶段检测范式与解耦检测头,以更好地适配遥感图像中“小目标密集、尺度跨度大、任意方向与复杂背景”的特点。整体思路是将输入影像经轻量化主干提取多尺度特征,由跨层特征融合结构聚合上下文,再由解耦头分别完成分类与边界框回归;训练阶段引入一致性标签分配与 IoU-aware 分类以降低推理时对 NMS 的依赖、缩短端到端时延。与传统两阶段方法相比,该设计省去候选区域生成与对齐操作,路径更短、算子更友好,便于在 Flask+SocketIO 的在线链路中稳定达到实时帧率。
网络结构采用“骨干(Backbone)—颈部(Neck)—头部(Head)”的三段式设计:骨干沿 CSP/GELAN 思路以部分残差密连与逐层通道重分配提高梯度流动;颈部在 PAN/Bi-FPN 思想上引入注意力加权的多尺度融合,以显式强化对极小框的响应。设第 \(k\) 层特征为 \(F_k\)、自适应插值到目标尺度后的特征为 \(\tilde F_k\)、其注意力权重为 \(\alpha_{lk}\),则第 \(l\) 层输出融合为
其中 \(g(\cdot)\) 为轻量通道注意力(如 SE/ECA 的线性映射),\(\mathcal{N}(l)\) 表示与层 \(l\) 相连的邻接特征集合。为兼顾大场景的全局依赖,Neck 末端可选用稀疏多头自注意力进行全局调和,其核心为
其中 \(Q,K,V!\in!\mathbb{R}^{n\times d}\) 分别为查询、键与值,\(d\) 为通道维度;在实现上通过窗口化/稀疏采样控制计算量。头部采用解耦设计并内置分布式边框回归(DFL)与IoU-aware 分类分支,提升定位与分类的一致性。
任务建模与损失函数方面,整体损失为
其中 \(\mathcal{L}*{\text{cls}}\) 为 BCE/Focal-Loss(缓解前景–背景不均衡),\(\mathcal{L}*{\text{dfl}}\) 为边框分布学习损失,\(\mathcal{L}*{\text{IoU}}\) 采用对长细目标更稳健的 CIoU/EIoU。以 CIoU 为例:
其中 \(\rho\) 为预测框中心与真值中心的欧氏距离,\(c\) 为最小包围框对角线长度,\(w,h\) 与 \(w^*,h^*\) 为预测与真值宽高,\(v\) 与系数 \(\alpha\) 调整长宽比一致性。标签分配采用一致性/任务对齐策略,使分类与回归目标面向相同的正样本集合,减少训练–推理不一致并显著降低误检;同时在单类或长尾场景引入标签平滑与在线蒸馏,以提升小样本类别的可分性。
训练与推理策略紧贴遥感难点:输入端以多尺度、随机旋转、色彩与对比度抖动、轻仿射与 Mosaic/MixUp提升对任意朝向与复杂背景的鲁棒性;优化器采用 SGD/AdamW + 余弦退火,并使用 EMA、梯度裁剪与轻度正则稳定收敛。推理阶段默认 NMS-free(IoU-aware 分类) 或者阈值极小化的 Fast-NMS 以削减延迟;对超大幅面采用滑窗 + 重叠合并与尺度自适应阈值,保证在 Flask+SocketIO 的流式通道中实现同步双帧与低抖动渲染。网络整体架构图如下图所示:

5. 实验结果与分析
本节在单类 plane(飞机) 的 9033 张遥感影像数据集上,对 YOLOv5nu、YOLOv6n、YOLOv7-tiny、YOLOv8n、YOLOv9t、YOLOv10n、YOLOv11n、YOLOv12n 与 YOLOv5su、YOLOv6s、YOLOv7、YOLOv8s、YOLOv9s、YOLOv10s、YOLOv11s、YOLOv12s 进行统一评测;指标包含 Precision/Recall/F1、mAP@0.5、mAP@0.5:0.95 与端到端时延(预处理/推理/后处理,毫秒),环境为 RTX 3070 Laptop 8 GB。已提供的混淆矩阵、F1-Confidence 与 PR 曲线表明模型整体处于高精度区间,最佳阈值落在 Conf≈0.57,在此处 F1 约 0.95 左右(见上图)。为便于横向比较,表 5-1 汇总了 n 型(nano/tiny 级别)模型的核心结果,并给出计算得到的总时延与 FPS。

表 5-1 轻量模型(n 型)综合对比(RTX 3070 Laptop)
(Total = Pre + Inf + Post;FPS = 1000 / Total)
| Model | Params (M) | FLOPs (G) | Pre (ms) | Inf (ms) | Post (ms) | Total (ms) | FPS | Precision | Recall | F1 | mAP@0.5 | mAP@0.5:0.95 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| YOLOv5nu | 2.6 | 7.7 | 1.90 | 7.73 | 1.31 | 10.94 | 91.4 | 0.984 | 0.875 | 0.926 | 0.908 | 0.762 |
| YOLOv6n | 4.3 | 11.1 | 2.17 | 6.78 | 1.39 | 10.34 | 96.7 | 0.982 | 0.960 | 0.971 | 0.986 | 0.808 |
| YOLOv7-tiny | 6.2 | 13.8 | 2.28 | 14.74 | 4.06 | 21.08 | 47.5 | 0.978 | 0.976 | 0.977 | 0.989 | 0.784 |
| YOLOv8n | 3.2 | 8.7 | 1.95 | 6.83 | 1.39 | 10.17 | 98.4 | 0.982 | 0.959 | 0.971 | 0.987 | 0.807 |
| YOLOv9t | 2.0 | 7.7 | 1.87 | 16.51 | 1.29 | 19.67 | 50.8 | 0.983 | 0.967 | 0.975 | 0.987 | 0.811 |
| YOLOv10n | 2.3 | 6.7 | 2.08 | 11.24 | 0.63 | 13.95 | 71.7 | 0.976 | 0.960 | 0.968 | 0.986 | 0.814 |
| YOLOv11n | 2.6 | 6.5 | 2.11 | 9.44 | 1.42 | 12.97 | 77.1 | 0.980 | 0.963 | 0.972 | 0.986 | 0.807 |
| YOLOv12n | 2.6 | 6.5 | 1.91 | 12.47 | 1.37 | 15.75 | 63.5 | 0.976 | 0.967 | 0.971 | 0.986 | 0.810 |
表 5-2 中量模型(s 型)综合对比(RTX 3070 Laptop)
| Model | Params (M) | FLOPs (G) | Pre (ms) | Inf (ms) | Post (ms) | Total (ms) | FPS | Precision | Recall | F1 | mAP@0.5 | mAP@0.5:0.95 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| YOLOv5su | 9.1 | 24.0 | 2.28 | 8.45 | 1.51 | 12.24 | 81.7 | 0.981 | 0.963 | 0.972 | 0.988 | 0.836 |
| YOLOv6s | 17.2 | 44.2 | 2.22 | 8.59 | 1.45 | 12.26 | 81.6 | 0.986 | 0.963 | 0.975 | 0.989 | 0.833 |
| YOLOv7 | 36.9 | 104.7 | 2.44 | 23.62 | 3.46 | 29.52 | 33.9 | 0.983 | 0.976 | 0.980 | 0.994 | 0.807 |
| YOLOv8s | 11.2 | 28.6 | 2.31 | 7.66 | 1.42 | 11.39 | 87.8 | 0.981 | 0.971 | 0.976 | 0.989 | 0.840 |
| YOLOv9s | 7.2 | 26.7 | 2.12 | 18.66 | 1.39 | 22.17 | 45.1 | 0.983 | 0.968 | 0.976 | 0.989 | 0.833 |
| YOLOv10s | 7.2 | 21.6 | 2.21 | 11.38 | 0.60 | 14.19 | 70.5 | 0.980 | 0.968 | 0.974 | 0.988 | 0.842 |
| YOLOv11s | 9.4 | 21.5 | 2.37 | 9.74 | 1.36 | 13.47 | 74.3 | 0.987 | 0.970 | 0.978 | 0.989 | 0.840 |
| YOLOv12s | 9.3 | 21.4 | 2.09 | 13.23 | 1.42 | 16.74 | 59.8 | 0.984 | 0.917 | 0.949 | 0.955 | 0.811 |
图 5-1 双条形图(n 系):F1 与 mAP50 对比
图注:八种 n 体量模型的 F1 与 mAP50。配色为学术蓝(F1)与琥珀色(mAP50),便于与表 5-1 对照。

图 5-2 双条形图(s 系):F1 与 mAP50 对比
图注:八种 s 体量模型的 F1 与 mAP50。可以看到 v8s 的 F1 优势与 v12s 的 mAP 优势并存,提示“召回—精度”取舍的不同偏好。

综合结论(n 型):在轻量级对比中,YOLOv8n 以 10.17 ms(≈98.4 FPS) 获得最佳时延;YOLOv7-tiny 的 mAP@0.5=0.989、F1=0.977 位居精度前列,但因后处理 4.06 ms 较高导致总体帧率较低;YOLOv10n 借助一致性分配与 近 NMS-free 设计,Post 仅 0.63 ms,在严格指标 mAP@0.5:0.95=0.814 上取得最好结果,显示出更稳健的定位质量与部署友好性。

中量模型(s 型)观察:在你给出的 s 型结果中,YOLOv7 的 mAP@0.5=0.994 与 F1=0.980 最高,但总时延 29.52 ms(≈33.9 FPS) 偏大;YOLOv8s 凭借 11.39 ms(≈87.9 FPS) 取得最佳速度–精度折中;YOLOv10s 在 mAP@0.5:0.95=0.842 上领先且后处理 0.60 ms,更利于 Web 端的低抖动流式可视化;YOLOv12s 在本数据与训练设定下出现“精度回落”(mAP@0.5≈0.955),结合提供的训练曲线推断为超参与正负样本比例不匹配、或多尺度/旋转增强与解耦头权重尚未充分收敛所致。

曲线与诊断:F1-Confidence 曲线在 0.55–0.60 的阈值段趋于平台,推荐 Web 端将 Conf 默认设为 0.57 并开放滑条微调;

平均 PR 曲线在 Recall>0.9 仍能维持高精度,但 n 型模型在极高召回端出现陡降,提示在密集场景采用 Soft-NMS/Cluster-NMS 或 更小滑窗步长 可进一步抑制互相遮挡导致的重复检出;训练过程中 mAP@0.5 10–20 epoch 内迅速收敛,随后缓慢爬升,说明数据增强与分配策略已匹配小目标分布,但严格指标的提升更多依赖于 IoU 家族损失与更细粒度的 DFL 调参。

工程化建议(面向 Flask+SocketIO 实时平台):若以“机场场景在线巡查”为目标,推荐默认 YOLOv8n(极限帧率) 或 YOLOv10n(更优 mAP@0.5:0.95 与更低 Post);若追求更高上限且可接受 ~12–14 ms 级别的延迟,YOLOv8s/YOLOv10s 是更稳妥的主力;阈值方面建议 Conf=0.57、IoU=0.60 起步,并对滑窗推理设置 重叠=15–25% 与 尺度自适应阈值 以提升边缘目标与极小框的召回。对出现的漏检主要来自“跑道/道路纹理混淆、机身阴影与停机坪线划干扰”,可在下一轮训练中增加 旋转/仿射强度、亮度对比度抖动与轻量高斯噪声,并在测试时对高密度区域启用 TTA(Flip/Scale) 与 小步长合并,在保证平台实时性的前提下提升稳健性。
6. 系统设计与实现
6.1 系统设计思路
本系统采用四层解耦架构:表现与交互层(Web 网页界面)—业务与会话管理层—推理与任务调度层—数据持久化层。浏览器端以 HTML/CSS/JS 搭配 SocketIO 长连接承载图片/视频/摄像头三类输入及参数联动,前端双画面组件以“原图/叠框结果”同步渲染;业务层维护登录态、权限与参数配置,将用户操作抽象为受控指令(开始/暂停/停止、阈值调整、类别筛选、权重切换),并在房间/会话粒度上进行广播,确保多人并发时的“所见即所得”。推理与调度层负责多源队列、滑窗裁片、批量预处理与 YOLO 推理,后处理包含 IoU/Soft-NMS 或 NMS-free 的筛选、类别过滤、计数与统计,最终将双帧与元数据事件化推送给前端。数据层以 SQLite 存储任务、账户、配置与检测记录,并提供导出与审计接口(CSV、带框图片/视频、日志)。
实时性与一致性通过三点保障:其一,同步双帧推送——服务器端以时间戳与采集序号绑定 “原始帧/结果帧”,一次性经 SocketIO 分帧发送,前端使用同一键复位呈现,避免错位;其二,参数同步——Conf/IoU/类别筛选与权重切换均作为会话级配置,采用原子更新与版本号校验,同时写入内存态与数据库快照;其三,会话与权限约束——登录/注册/跳过三种入口统一进入会话中间件,跳过仅对当前会话生效,含过期与并发校验,管理端可在仪表盘查看在线实例、模型版本与平均延迟。
系统具备良好的扩展性与可维护性。推理侧支持权重热切换与多模型并行 A/B,对新权重完成加载—预热—心跳检测后再切换路由;统计与导出统一由“结果汇聚器”集中管理,支持按文件名/时间轴高亮检索与批量下载;数据层提供自动迁移与路径规范(跨平台兼容),并在导出链路增加哈希签名与版本标注以保障结果可追溯。异常情况下,调度器通过队列水位与背压策略自动降帧或切换为关键帧模式,确保交互连贯。
图 6-1 系统流程图

图注:流程自浏览器多源输入进入会话管理与任务调度,经预处理、推理与后处理生成结果帧与统计信息;一条路径回流前端渲染形成交互闭环,另一条路径进入结果汇聚与持久化用于导出与审计。
图 6-2 系统设计框图

图注:框图按层次展示模块边界与数据通道;UI 与 SVC 双向绑定参数,推理层对多源输入进行统一调度,数据层承担结果、账户与导出材料的持久化与审计。
6.2 登录与账户管理

说明:用户可选择“登录/注册/跳过一次体验”。注册成功或登录通过后,系统创建持久会话并载入个性化配置与历史记录;跳过仅生成临时会话,作用域限定为当前会话周期。账户资料修改采用口令哈希与会话版本机制,确保设置与检测流程的衔接与安全。
代码下载链接
如果您希望获取博客中提及的完整资源包,包含测试图片、视频、Python文件(*.py)、网页配置文件、训练数据集、代码及界面设计等,可访问博主在面包多平台的上传内容。相关的博客和视频资料提供了所有必要文件的下载链接,以便一键运行。完整资源的预览如下图所示:


资源包中涵盖了你需要的训练测试数据集、训练测试代码、UI界面代码等完整资源,完整项目文件的下载链接可在Gitee项目中找到➷➷➷
完整项目下载、论文word范文下载与安装文档:https://deeppython.feishu.cn/wiki/T4o9wHiHsi1SgKkbgHbcmDp0nBg
讲解视频地址:https://www.bilibili.com/video/BV1pKD9B1ET2/
完整安装运行教程:
这个项目的运行需要用到Anaconda和Pycharm两个软件,下载到资源代码后,您可以按照以下链接提供的详细安装教程操作即可运行成功,如仍有运行问题可私信博主解决:
- Pycharm和Anaconda的安装教程:https://deepcode.blog.csdn.net/article/details/136639378;
软件安装好后需要为本项目新建Python环境、安装依赖库,并在Pycharm中设置环境,这几步采用下面的教程可选在线安装(pip install直接在线下载包):
- Python环境配置教程:https://deepcode.blog.csdn.net/article/details/136639396;
7. 结论与未来工作
本文面向遥感小目标场景,构建了集训练评测、在线推理、可视分析与结果追溯于一体的实时检测平台:后端以 PyTorch/ONNX/TensorRT 驱动 YOLOv5–YOLOv12 全系模型,前端以 Flask+SocketIO 实现图片/视频/摄像头三源输入的低时延联动,提供左右等宽双画面对比、同步双帧与一键导出;在 9033 张单类飞机数据集上,轻量组中 YOLOv8n 取得最佳时延、YOLOv10n 在严格指标 mAP@0.5:0.95 表现更稳健,中量组中 YOLOv8s/YOLOv10s 在速度—精度—后处理开销之间给出更优折中,证明了平台在遥感密集小目标与复杂背景条件下的可用性与可迁移性。
未来工作将从三条主线推进:其一是模型侧的持续优化,围绕更轻量化骨干与注意力稀疏化、端到端 NMS-free/IoU-aware 训练、蒸馏与 PTQ/QAT 量化,以及多模态融合(光学+SAR/多光谱)与旋转框/多边形框统一建模,进一步提升极小目标与长条形目标的鲁棒性;其二是系统侧的工程演进,完善 Docker 镜像与 Helm 部署、引入分布式任务队列与多实例调度、采用 WebRTC 低时延推流与断点续传、扩展角色权限与审计日志、实现 i18n 与多租户隔离,并将权重热切换与A/B测试纳入灰度发布流程;其三是数据侧的闭环建设,基于主动学习与持续标注策略自动采样难例与漂移样本,配合数据治理、版本化与质量度量仪表盘,形成“采集—训练—评估—上线—反馈”的可追溯循环。随着更多场景(港口船只、车辆与跑道占用、灾害临时构筑物)与更多传感器接入,平台将继续面向真实业务需求打磨易用的 Web 体验与稳定的推理链路,并在保证实时性的前提下追求更高的可解释性与可维护性。
参考文献(GB/T 7714)
1 袁翔, 程塨, 李戈, 等. 遥感影像小目标检测研究进展[J]. 中国图象图形学报, 2023, 28(6): 1662-1684. DOI:10.11834/jig.221202. (cjig.cn)
2 Xia G S, Bai X, Ding J, et al. DOTA: A Large-Scale Dataset for Object Detection in Aerial Images[C]//CVPR. 2018: 3974-3983. (CVF Open Access)
3 Lam D, Kuzma R, Klaric M, et al. xView: Objects in Context in Overhead Imagery[EB/OL]. arXiv:1802.07856, 2018. (arXiv)
4 Zhu P, Wen L, Du D, et al. Vision Meets Drones: A Challenge[EB/OL]. arXiv:1804.07437, 2018. (arXiv)
5 Ding J, Xue N, Long Y, Xia G S, Lu Q. Learning RoI Transformer for Oriented Object Detection in Aerial Images[C]//CVPR. 2019: 2849-2858. (CVF Open Access)
6 党敏, 刘刚, 王泉, 等. 航空遥感图像旋转目标检测技术研究综述[J]. 遥感学报, 2025, 29(8): 2483-2510. DOI:10.11834/jrs.20254504. (Yangtze Normal University)
7 Tian Z, Shen C, Chen H, He T. FCOS: Fully Convolutional One-Stage Object Detection[C]//ICCV. 2019: 9627-9636. (CVF Open Access)
8 Zhou X, Wang D, Krähenbühl P. Objects as Points[EB/OL]. arXiv:1904.07850, 2019. (arXiv)
9 Ge Z, Liu S, Wang F, Li Z, Sun J. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. arXiv:2107.08430, 2021. (arXiv)
10 Rezatofighi H, Tsoi N, Gwak J, et al. Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression[C]//CVPR. 2019: 658-666. (CVF Open Access)
11 Zheng Z, Wang P, Liu W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[J]. AAAI, 2020. (AAAI Publications)
12 Zhang Y-F, Ren W, Zhang Z, et al. Focal and Efficient IoU Loss for Accurate Bounding Box Regression[EB/OL]. arXiv:2101.08158, 2021. (arXiv)
13 Wang C-Y, Bochkovskiy A, Liao H-Y M. YOLOv7: Trainable Bag-of-Freebies Sets New SOTA for Real-Time Detectors[EB/OL]. arXiv:2207.02696, 2022. (arXiv)
14 Wang C-Y, Liao H-Y M. YOLOv9: Learning with Programmable Gradient Information[EB/OL]. arXiv:2402.13616 / ECCV 2024. (ECVA)
15 Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024. (arXiv)
16 Ultralytics. Explore YOLOv8: Docs[EB/OL]. 2023-2025. (Ultralytics Docs)
17 Ultralytics. YOLO11: Docs[EB/OL]. 2024-2025. (Ultralytics Docs)
18 Tian Y, Ye Q, Doermann D. YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL]. arXiv:2502.12524, 2025. (arXiv)
19 Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]//ECCV. 2020: 213-229. (ECVA)
20 Zhao Y, Lv W, Xu S, et al. DETRs Beat YOLOs on Real-time Object Detection (RT-DETR)[EB/OL]. arXiv:2304.08069, 2023 / CVPR 2024. (arXiv)
21 Xu S, Wang X, Lv W, et al. PP-YOLOE: An Evolved Version of YOLO[EB/OL]. arXiv:2203.16250, 2022. (arXiv)
22 Tan M, Pang R, Le Q V. EfficientDet: Scalable and Efficient Object Detection[EB/OL]. arXiv:1911.09070, 2019 / CVPR 2020. (arXiv)
23 Lin T-Y, Goyal P, Girshick R, He K, Dollar P. Focal Loss for Dense Object Detection[C]//ICCV. 2017: 2980-2988. (arXiv)
24 ONNX Runtime. Quantize ONNX Models: Documentation[EB/OL]. 2025. (ONNX Runtime)
25 NVIDIA. TensorRT Documentation: Developer Guide[EB/OL]. 2025. (NVIDIA Docs)
注:表 2-1 中的指标均引自对应论文或官方文档,已在参考文献中标注可追溯来源。

浙公网安备 33010602011771号