最新YOLO实现的水下目标实时检测平台(Flask+SocketIO+HTML_CSS_JS)

摘要

本文面向“水下目标(鱼类、贝类、海参、海工构件缺陷等)”的实时检测与可视化需求,构建了基于 Flask + Flask-SocketIO / HTML / CSS / JS 的一体化平台,前后端解耦、推理与交互并行。系统同时集成 YOLOv5–YOLOv12(共8种) 的训练与推理,提供模型选择/权重上传与配置持久化;支持图片/视频/浏览器摄像头输入,并在浏览器端实现左右等宽双画面对比(原图/检测结果)、进度控制(进度条/暂停/继续/停止)、Conf/IoU 调节类别筛选。检测结果可CSV 导出带框结果一键下载(图像/视频)、并SQLite 入库以支持历史查询与溯源;含登录/注册(可跳过)的会话管理与权限隔离。平台内置mAP、F1、PR 曲线与训练曲线等评测与可视化面板,用于多版本 YOLO 的横向对比与水下复杂场景(浑浊、低照、反光、漂浮物遮挡)的误检漏检分析;同时提供实时日志与资源监控以保障端到端时延。项目开箱即用,支持本地与服务器部署,适配 ONNX/TensorRT 推理加速与轻量化模型联调;文末提供完整工程与数据集下载链接,便于复现与二次开发。

讲解视频地址基于深度学习的水下目标检测系统(Web系统+完整项目分享+数据集+多YOLO模型)
YOLOv12-v11/v10/v9/v8/v7/v6/v5系统(八个模型,含说明论文)合集下载:https://mbd.pub/o/bread/YZWck59sZA==
说明论文下载:https://mbd.pub/o/bread/YZWck5xsZA==
YOLOv12下载:https://mbd.pub/o/bread/YZWbmpxuag==
YOLOv11下载:https://mbd.pub/o/bread/YZWbm5psaA==
YOLOv10下载:https://mbd.pub/o/bread/YZWbm5ltaA==
YOLOv9下载:https://mbd.pub/o/bread/YZWbm5ZqbQ==
安装与教程文档:https://deeppython.feishu.cn/wiki/NQJ0wuId2iuVHdkHFLBcTfE4nWc

@

➷点击跳转至文末所有涉及的完整代码文件下载页☇


1. 网页功能与效果

(1)登录注册:提供登录、注册与一次性跳过三种入口,登录态在本次会话与多页导航中生效;口令采用哈希存储并结合最小权限策略;成功进入后自动载入个性化配置与历史记录,支持随时注销与切换账号。
在这里插入图片描述

(2)功能概况:系统以“概览 → 图片检测 / 视频检测 / 摄像头检测 → 模型选择 → 导出视图”的动线组织能力;核心功能包含双画面对比、进度控制、阈值与类别筛选、结果入库与导出;支持CSV与带框图片/视频一键下载,记录跨页共享。
在这里插入图片描述

(3)视频检测:播放器提供同步双帧展示(原始帧/检测帧)、进度条与暂停、继续、停止控制;支持关键帧跳转与区间预览,浏览器摄像头可实时推理并缓冲导出MP4;界面可动态调节Conf/IoU并按类别筛选,以便快速定位目标与误检。
在这里插入图片描述

(4)更换模型:上传权重即可切换当前YOLO模型,类别映射与配色同步刷新且在会话内生效;页面标题与品牌元素可编辑并本地保存,便于多项目复用;路径规范跨平台兼容,数据库自动迁移保障版本升级与结果可追溯。
在这里插入图片描述

(5)概览界面:首页集中呈现近期任务、关键指标与资源状态,支持按文件名或时间快速检索并在CSV列表中高亮定位;提供最近模型与阈值配置的快速入口,便于一键复现实验;所有统计与导出入口统一汇聚,减少跨页操作成本。
在这里插入图片描述


2. 绪论

2.1 研究背景与意义

受光的吸收与散射影响,水下图像普遍存在低对比度、强色偏与悬浮颗粒噪声,导致目标(鱼类、贝类、海参、海工缺陷等)呈现小尺度、低信噪与遮挡共存的检测难题,而海洋牧场监测、ROV/AUV作业与海工巡检对实时性与可解释可视化要求极高 [1]。在此背景下,面向工程一线的“检测—评测—交互—溯源”一体化平台可把模型指标转化为可操作的业务能力,通过浏览器端双画面对比、进度与阈值联动、历史记录与CSV导出,支撑远程协同、弱网回传与边缘节点自治,从而提升作业安全与效率 [2]。相较离线算法报告,具备多模型热切换、端到端延迟监测与数据闭环的Web平台,更契合海上持续运行与版本快速迭代的现实需求 [3]。

2.2 国内外研究现状

围绕水下检测的图像退化问题,研究首先聚焦增强与感知模型的协同:基于物理模型与学习先验的增强基准与数据集表明,水下图像存在显著色偏与对比度衰减,直接影响检测器的特征可分性与定位稳定性 [3]。面向应用场景的公开评测推动了类目与划分的标准化,例如URPC系列以海参、海胆、扇贝、海星等典型目标构建评测基线,促进了跨方法的客观对比与复现 [2]。经典两阶段检测在复杂背景下稳健但延迟较高,而单阶段与Anchor-free路线以更低计算开销服务实时需求,成为工程落地的主流选择 [5–7]。
从范式演进看,Anchor-based与Anchor-free在正负样本分配与密集小目标处理上各有优劣,Transformer检测器以集合预测规避NMS在端到端一致性上具备潜力,但训练代价与推理内存需平衡 [8–10]。损失函数方面,GIoU/CIoU/EIoU等在重叠、中心距与长宽比上提供更稳定的几何约束,配合Focal类损失可缓解前景—背景与长尾分布失衡,对水下密集小目标与遮挡场景有效 [7,12]。
YOLO家族持续沿骨干轻量化、特征金字塔与解耦头、动态分配与数据增强改进:YOLOv9引入GELAN与PGI提升梯度利用与训练稳定性,兼顾精度与参数效率 [14];YOLOv10提出一致性双分配并朝NMS-free训练演进,在同精度下显著降低延迟,强调端到端实时性 [15];工程生态上的YOLOv11强化易用性与稳定性,适合生产工作负载;YOLOv12进一步在注意力与推理管线上追求上限精度,但在CPU吞吐与显存占用上需工程权衡 [22–24]。
除YOLO外,PP-YOLOE以Anchor-free与TAL分配取得较优的精度—速度折中,适合密集与小目标;RT-DETR以实时端到端集合预测在去NMS与整体时延上具备优势,特别适于重叠抑制与流式推理 [16–17]。在部署层面,ONNX/TensorRT算子融合与INT8量化显著降低端到端时延,WebGPU/WebNN让前端“就地推理+可视化”成为可能,利于“前端快速验证—后端批处理”的协同闭环 [11,13,21]。

表 1 代表性检测方法与部署策略对比(节选)

方法 范式/家族 数据集 关键改进 优势与局限 指标(示例) 适用难点 引用
YOLOv10-S YOLO/单阶段、NMS-free COCO 一致性双分配、整体效率设计 端到端低延迟;训练策略依赖性强 同精度较RT-DETR-R18更快 实时视频、弱网回传 [15]
YOLOv9 YOLO/单阶段 COCO GELAN、PGI 参数效率高;实现细节多 同尺度优于前代 复杂背景、域泛化 [14]
YOLOv11 YOLO/单阶段 多域 结构/训练与生态优化 生产可用性强 官方生产推荐 工程部署 [22]
YOLOv12 YOLO/注意力中心化 多域 注意力与推理优化 上限精度高;显存压力 需工程权衡 高精度检测 [23–24]
PP-YOLOE-L Anchor-free/单阶段 COCO CSPRepRes、ET-Head、TAL 工程化完善;体量偏大 51.4 mAP、78.1 FPS(V100) 小目标/密集 [17]
RT-DETR-R50 Transformer/端到端 COCO/Objects365 实时集合预测与解码 去NMS;训练开销 报告~百FPS量级 重叠抑制 [16]
Faster R-CNN 两阶段 COCO/VOC RPN+RoI Head 稳健;实时性弱 经典基线 复杂背景 [5]
FCOS/CenterNet Anchor-free/单阶段 COCO 像素/中心点建模 匹配简洁;易扩展 经典基线 密集小目标 [9–10]

综上,国内外研究在“更强的鲁棒性—更低的时延—更便捷的部署”三条线上逐步收敛:以YOLOv10/RT-DETR为代表的端到端与NMS-free方向降低了视频流场景的总时延,以PP-YOLOE/YOLOv9等强化了小目标与密集遮挡的可分性,工程侧的ONNX/TensorRT与WebGPU降低了平台对硬件与网络环境的敏感度,为本文Web平台的实时可视化与多模型对比提供了坚实基底 [13,16–17,21–24]。

2.3 要解决的问题及其方案

(1)准确性与实时性并重:水下小目标、遮挡与强色偏导致误检漏检与高延迟并存,需在模型、数据与系统三层协同优化 [1,3]。方案:以YOLOv12为核心,结合YOLOv5–YOLOv11横向对比与迁移学习,采用CIoU/EIoU等稳定回归损失与难例重加权,配合TensorRT/INT8量化实现端到端低时延 [12–13,22–24]。
(2)环境适应与泛化:跨海域与季节造成域偏移与长尾分布,模型鲁棒性不足 [3]。方案:数据增强与有监督域自适应结合,半监督/主动学习迭代更新样本池,并以知识蒸馏保持轻量模型在边缘端的迁移性 [18–20]。
(3)网页交互与可解释:缺乏“可见、可调、可追溯”的在线操作妨碍业务闭环 [2]。方案:设计双画面对比、同步双帧与进度控制、Conf/IoU与类别筛选联动,结合CSV导出、带框下载与SQLite入库,形成“检测—评测—溯源”闭环。
(4)工程一致性与可维护:多模型、多版本与多端部署下的一致性与可审计要求高 [13]。方案:权重热切换与类别映射同步、路径与数据库自动迁移、日志与资源监控接口,前后端通过SocketIO实现参数/状态一致推送,并支持WebGPU/WebNN前端就地验证 [11,21]。

2.4 博文贡献与组织结构

贡献:(1)系统化梳理水下实时检测的任务难点与算法脉络,并以对比表呈现代表性方法的范式、关键技术与指标,突出与水下场景的适配关系 [1,14–17];(2)提出以YOLOv12为核心、支持YOLOv5–YOLOv11热切换的训练与推理方案,并结合CIoU/EIoU、蒸馏与TensorRT/量化实现精度—时延的工程折中 [12–13,18–24];(3)实现基于Flask+SocketIO/HTML/CSS/JS的Web平台,提供双画面对比、同步双帧与一键导出/入库的可视化闭环;(4)给出可复现实验脚本与评测面板,支撑mAP、F1、PR与训练曲线等多维对比。
组织:全文依次介绍网页功能与效果、绪论(含研究现状与对比表)、数据集处理、模型原理与设计(含关键公式与结构示意)、实验结果与分析(含图表与案例)、系统设计与实现(含流程与框图)以及结论与未来工作,以满足读者从原理到工程落地的完整路径需求。


3. 数据集处理

本研究使用的水下目标检测数据集共 5555 张图像,按训练集 5102、验证集 432、测试集 21 的固定划分用于模型开发与评测;类别共 6 个,分别为 crab/螃蟹、fish/鱼、jellyfish/水母、shrimp/虾、small_fish/小鱼、starfish/海星。标注采用 YOLO 格式(每条标注为 class、x、y、width、height,均为 [0,1] 归一化),与统计图中的位置分布与宽高散点图相一致。从提供的类别计数柱状图与成对关系图可见,数据呈明显长尾:crab、small_fish、starfish 为高频,fish 次之,jellyfish 与 shrimp 较少;目标尺度以小目标为主,宽高分布集中在低值区,且目标在画面中的空间分布不均,伴随强色偏、浑浊与局部背光等水下成像退化。抽样可视化显示部分画面存在遮挡、反光标牌与漂浮物干扰,这些现象会直接影响检测器的定位稳定性与类别可分性。

Chinese_name = {"crab": "螃蟹", "fish": "鱼", "jellyfish": "水母", "shrimp": "虾", "small_fish": "小鱼", "starfish": "海星"}

        
在这里插入图片描述

针对上述特征,数据预处理遵循“轻校正、强多样”的原则:在不破坏真实质感的前提下进行颜色校正与白平衡微调,对极端偏色与低对比样本采用适度对比度拉伸或去雾增强;训练阶段结合随机缩放与长宽比抖动以覆盖多尺度,配合 Mosaic/MixUp、随机水平翻转、亮度/饱和度扰动与运动模糊模拟,增强对小目标、运动与浑浊环境的鲁棒性;对类间不均衡与长尾问题,通过类感知采样与少数类适度过采样、罕见类别的 Copy-Paste 合成以及损失重加权来缓解;同时执行标注质量自检,剔除越界/退化框与严重重复帧,统一分辨率与信噪标准,保证训练—验证—测试三者统计分布的一致性。为保障实验复现,建议固定随机种子(如 42)并冻结划分文件;后续所有模型比较均基于该划分与同一套增强策略,使改进收益可归因于算法而非数据漂移。
在这里插入图片描述


4. 模型原理与设计

本文以YOLOv12为主线实现水下目标的单阶段实时检测。总体范式沿用“骨干—特征颈部—解耦检测头”的三段式结构:骨干采用CSP/C2f风格的多分支残差单元以提升梯度流动与参数利用率,插入轻量级自注意力以增强远程依赖与纹理弱化场景下的判别性;颈部使用自顶向下与自底向上的双向特征金字塔(PAN-FPN),并结合可学习权重的多尺度融合以提升小目标与遮挡目标的可分性;检测头解耦分类与回归分支,同时建模目标存在性(objectness),以减少任务冲突并稳定收敛。针对水下“低对比/强色偏/悬浮物”的退化,本方案在输入侧配合颜色轻校正与多尺度随机缩放,推理侧保持Anchor-free的正负样本分配与动态阈值,从而在小目标密集背景噪声强的条件下维持稳定的召回率。网络整体架构图如下图所示:
在这里插入图片描述

在结构细节上,注意力与多尺度融合是提升水下鲁棒性的关键。对任意尺度特征\(\mathbf{X}\in\mathbb{R}^{H\times W\times C}\),自注意力可写为

\[\mathrm{Attn}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V, \]

其中\(Q,K,V\)\(\mathbf{X}\)线性映射得到,\(\sqrt{d_k}\)用于尺度归一化;为控制延迟,本文使用窗口化/分组或线性注意力替代全局注意力。特征融合采用带可学习非负权重的双向融合:设来自上/下游的特征为\({U_j}\)、权重为\(w_j\ge0\),则

\[P_i=\frac{\sum_j w_j\cdot U_j}{\sum_j w_j+\varepsilon}, \]

其中\(\varepsilon\)为数值稳定常数;该归一化加权融合对不同清晰度/成像退化的尺度通道具备自适应抑噪能力。检测头采用解耦头,分类分支输出类别概率\(\hat{p}_k\),回归分支预测边界框偏移\(\hat{b}=(\hat{x},\hat{y},\hat{w},\hat{h})\),objectness用于抑制背景与浮游噪声,整体在训练期通过动态匹配(如top-k/ATSS/TAL家族)选择正样本,以提升密集场景的稳定性。

损失与任务建模围绕“定位稳定+类别稳健”展开。定位使用IoU族损失以提升几何一致性,基本IoU定义为

\[\mathrm{IoU}(B,B^*)=\frac{|B\cap B^*|}{|B\cup B^*|}, \]

其中\(B\)\(B^*\)分别为预测与标注框。为更快收敛并在长宽比失配时保持稳定,引入CIoU/EIoU 等形式,例如

\[\mathcal{L}*{\mathrm{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{b},\mathbf{b}^*)}{c^2}+\alpha v, \]

其中\(\rho\)为框中心距离,\(c\)为最小外接框对角线,\(v\)度量长宽比一致性、\(\alpha\)为加权项。分类采用Focal Loss抑制前景/背景不均衡:

\[\mathcal{L}*{\mathrm{FL}}=-\alpha_t(1-p_t)^\gamma\log(p_t), \]

其中\(p_t\)为正类概率,\(\gamma\)控制难例聚焦;配合标签平滑降低类间相似(如“鱼/小鱼”)造成的过置信。为在不牺牲实时性的前提下提升小模型性能,可选用蒸馏(logits/feature/IoU蒸馏)与对比学习增强域内可分性;推理阶段采用NMS-free(训练一致性)DIoU-NMS两种策略择优,前者降低流水线延迟,后者在重叠密集时更稳健。

训练与正则化策略强调“低时延可复现”。优化器采用带动量与权重衰减的SGD/AdamW,学习率使用余弦退火\(\eta_t=\eta_{\min}+\tfrac12(\eta_{\max}-\eta_{\min})(1+\cos(\pi t/T))\),配合Warmup稳定早期训练;BN/SyncBN保持跨卡统计一致,轻度的DropBlock/随机深度用于抑制过拟合但控制在不影响吞吐的强度范围。多尺度训练与混合精度(FP16/FP8)配合ONNX/TensorRT的算子融合与INT8校准,在不改变模型语义的情况下显著降低端到端延迟;阈值方面,针对水下低对比,推理时将置信阈值\(\tau_{\text{conf}}\)与IoU阈值\(\tau_{\text{IoU}}\)联动暴露到Web端,结合同步双帧对比帮助人工快速判定误检/漏检并回灌样本,形成“训练—评测—可视化—样本闭环”的工程设计。整体设计在保证小目标召回复杂背景抑制的同时,维持端到端实时性以服务于浏览器侧的在线监控与导出。


5. 实验结果与分析

本节基于第 3 章所述划分(训练 5102、验证 432、测试 21),在同一硬件(RTX 3070 Laptop 8 GB)与相同数据预处理下,对 YOLOv5nu、YOLOv6n、YOLOv7-tiny、YOLOv8n、YOLOv9t、YOLOv10n、YOLOv11n、YOLOv12n 以及 YOLOv5su、YOLOv6s、YOLOv7、YOLOv8s、YOLOv9s、YOLOv10s、YOLOv11s、YOLOv12s 进行了端到端评测。指标包含 Precision、Recall、F1、mAP50、mAP50-95 与端到端延迟(Pre/Inf/Post,单位 ms)。下文所有结论均以“同尺寸/同配置、单张推理”的可复现实验为前提。
在这里插入图片描述

从整体趋势看,n 系列在极低延迟与高精度间取得良好平衡:YOLOv8n10.17 ms 的最短端到端时间成为速度优选,而 YOLOv10n0.8379 mAP50-95 在精度上领跑同组,YOLOv12n 则给出最高 F1=0.9812 的稳定召回(“all classes”峰值约在 conf≈0.46,与平台默认阈值一致)。
在这里插入图片描述

s 系列整体更注重上限精度:YOLOv12s0.8567 mAP50-95 略胜 YOLOv6s/YOLOv11s/YOLOv10s,而YOLOv8s11.39 ms 获得最快端到端时间,满足更高帧率的视频流需求。训练曲线显示各模型在 100 轮左右收敛,mAP50 接近 0.99;其中 YOLOv10n 早期震荡较大但后期稳定,与其一致性分配和 NMS-free 训练特性相符。
在这里插入图片描述

类别层面,small_fish 是最具挑战的一类:其 F1-Confidence 曲线整体低于其他类,PR 曲线在高召回端略有下垂,主要受小尺度、低对比与背景相似纹理影响。对策上,可在训练期提高小目标的采样权重与 Copy-Paste 合成比例,叠加尺度抖动与轻量去雾/增益扰动;推理端建议把 conf 设为 0.45–0.50、IoU 设为 0.55–0.65,并结合“同步双帧”核查误检/漏检后回灌样本。
在这里插入图片描述

下面给出一张综合对比表(将 Pre/Inf/Post 求和为 Total 以反映端到端时延;加粗为各组最优)。

表 5-1 代表模型在水下数据集上的综合对比(同环境、单张推理)

组别 Model Params (M) FLOPs (G) Total(ms) F1 mAP50-95
n YOLOv5nu 2.6 7.7 10.94 0.9762 0.8200
n YOLOv6n 4.3 11.1 10.34 0.9734 0.8281
n YOLOv7-tiny 6.2 13.8 21.08 0.9698 0.7630
n YOLOv8n 3.2 8.7 10.17 0.9788 0.8259
n YOLOv9t 2.0 7.7 19.67 0.9749 0.8223
n YOLOv10n 2.3 6.7 13.95 0.9754 0.8379
n YOLOv11n 2.6 6.5 12.97 0.9763 0.8241
n YOLOv12n 2.6 6.5 15.75 0.9812 0.8268
s YOLOv5su 9.1 24.0 12.24 0.9819 0.8377
s YOLOv6s 17.2 44.2 12.26 0.9840 0.8565
s YOLOv7 36.9 104.7 29.52 0.8135 0.5542
s YOLOv8s 11.2 28.6 11.39 0.9793 0.8410
s YOLOv9s 7.2 26.7 22.17 0.9824 0.8485
s YOLOv10s 7.2 21.6 14.19 0.9753 0.8550
s YOLOv11s 9.4 21.5 13.47 0.9838 0.8548
s YOLOv12s 9.3 21.4 16.74 0.9858 0.8567

图 5-1 双条形图(n 系):F1 与 mAP50 对比
图注:八种 n 体量模型的 F1 与 mAP50。配色为学术蓝(F1)与琥珀色(mAP50),便于与表 5-1 对照。
在这里插入图片描述

图 5-2 双条形图(s 系):F1 与 mAP50 对比
图注:八种 s 体量模型的 F1 与 mAP50。可以看到 v8s 的 F1 优势与 v12s 的 mAP 优势并存,提示“召回—精度”取舍的不同偏好。
在这里插入图片描述

结合表格与曲线,可归纳三点工程结论。其一,在速度优先的流媒体场景,首选 YOLOv8n/YOLOv8s,两者在端到端延迟上均为各组最低,且 mAP50-95 不落后同级。其二,在精度优先且允许略高时延的离线/准实时场景,YOLOv10n(n 组)与 YOLOv12s(s 组)更具优势;若需更高 F1 以提升召回,YOLOv12n/YOLOv12s 值得优先考虑。其三,YOLOv7 代际劣势明显,建议仅作基线对照;YOLOv6/YOLOv11 在综合体验上接近最优,适合生产稳定性要求较高的部署。
在这里插入图片描述

误检/漏检与改进建议。 从混淆矩阵与 PR 曲线看,small_fish 与背景混淆是主要误差来源,位置偏上中区域的小框更易漏检;建议在训练中增强小目标采样、提升输入分辨率一档(如从 640→768)、叠加 Copy-Paste 与随机裁切;推理阶段在平台端联动调节 conf 与 IoU,并开启“带框一键下载+CSV 导出”对可疑帧进行回标复训,形成数据闭环。对于视频流,启用同步双帧时间窗投票可显著降低偶发漏检;对长尾类别(jellyfish、shrimp),可采用类重加权或半监督挖掘补充样本。


6. 系统设计与实现

6.1 系统设计思路

系统采用四层分工:表现与交互层(Web)—业务与会话管理层—推理与任务调度层—数据持久化层。表现层以 HTML/CSS/JS 构建左/右等宽的双画面与控制面板,通过 Flask-SocketIO 建立原始帧与检测帧两条命名通道,同步绑定时间戳与帧序号;页面的阈值、类别筛选、进度控制与模型切换均以事件流形式回传到后端,前端仅负责渲染与轻量校验,避免阻塞推理主链路。业务与会话管理层负责登录/注册/跳过的会话控制、权限与速率限制、参数分发与任务路由;同一会话中的所有页面共享“运行态快照”(源类型、阈值、类别、模型 ID 等),以保证多页操作的一致性。

推理与任务调度层围绕多源输入(图片/视频/摄像头)构建轻量任务队列:预处理(尺寸规范、颜色轻校正、信噪筛查)→ YOLO 推理(v5–v12 热切换,ONNX/TensorRT 可选)→ 后处理(置信/IoU 过滤、NMS-free 或 DIoU-NMS、统计与曲线采样)→ 帧级结果编码;视频/摄像头路径由专门的“同步双帧”模块保证同帧原图与结果的并行推送,并在用户拖动进度或暂停/继续时进行时间窗一致性校正。模型权重通过“模型注册表”统一管理,上传即插即用并自动刷新类别与配色。数据持久化层以 SQLite 保存任务、结果与统计,文件系统存储带框图片/视频与 CSV;入库采用原子写入与版本号字段以支撑溯源与批量导出,日志/监控接口记录时延、显存与异常事件。

在可扩展性方面,系统以“配置驱动 + 插件化”对模型、导出与可视化进行解耦:新增模型仅需注册推理后端与类别映射;导出侧统一由 Export Manager 聚合带框图、视频片段与 CSV,并支持批量与溯源定位;监控侧提供资源水位与端到端时延的采样口,便于在浏览器端呈现轻量仪表。整体设计保证同步双帧与参数状态在端到端链路中的一致可追踪,并以最小耦合度支持后续的 WebGPU 前端推理或边云协同。

图 6-1 系统流程图
在这里插入图片描述

图注:系统由初始化进入多源输入,依次完成预处理、推理与后处理;双帧与统计同步推送到前端,同时写入数据库并支持一键导出,交互参数回流形成闭环。

图 6-2 系统设计框图
在这里插入图片描述

图注:四层结构清晰分离职责:浏览器端聚焦呈现与控制;业务层统一会话、权限与导出;推理层承担多源任务与同步双帧;数据层负责结果、账户、权重与归档,数据流自上而下闭环回传参数与状态。

6.2 登录与账户管理

在这里插入图片描述

说明:登录流程在校验成功后建立会话并装载个性化参数与历史记录,进入主界面后可随时修改资料且所有变更即时持久化;注销或切换账号将原子性清除会话并回到登录入口,保证与主检测流程(参数同步、导出与入库)的无缝衔接与安全隔离。


代码下载链接

        如果您希望获取博客中提及的完整资源包,包含测试图片、视频、Python文件(*.py)、网页配置文件、训练数据集、代码及界面设计等,可访问博主在面包多平台的上传内容。相关的博客和视频资料提供了所有必要文件的下载链接,以便一键运行。完整资源的预览如下图所示:

在这里插入图片描述

在这里插入图片描述

        资源包中涵盖了你需要的训练测试数据集、训练测试代码、UI界面代码等完整资源,完整项目文件的下载链接可在Gitee项目中找到➷➷➷

完整项目下载、论文word范文下载与安装文档https://deeppython.feishu.cn/wiki/NQJ0wuId2iuVHdkHFLBcTfE4nWc

讲解视频地址https://www.bilibili.com/video/BV1i7D9BMEdS/

完整安装运行教程:

        这个项目的运行需要用到Anaconda和Pycharm两个软件,下载到资源代码后,您可以按照以下链接提供的详细安装教程操作即可运行成功,如仍有运行问题可私信博主解决:

  1. Pycharm和Anaconda的安装教程https://deepcode.blog.csdn.net/article/details/136639378

        软件安装好后需要为本项目新建Python环境、安装依赖库,并在Pycharm中设置环境,这几步采用下面的教程可选在线安装(pip install直接在线下载包):

  1. Python环境配置教程https://deepcode.blog.csdn.net/article/details/136639396

7. 结论与未来工作

本文面向水下场景构建了集训练、推理、评测与可视化于一体的实时检测平台,在 Flask+SocketIO 的同步双帧通道与前端双画面对比的配合下,将 YOLOv5–YOLOv12 八种模型的能力以工程形态落地,并完成端到端的导出、入库与溯源闭环;在统一数据与硬件条件下,n 组以 YOLOv8n 获得最低端到端时延(约 10 ms 量级),YOLOv10n 在 mAP50-95 上表现领先,YOLOv12n 取得最高 F1(0.9812),而 s 组的 YOLOv12s 以 0.8567 的 mAP50-95 稳居精度前列,证明平台在“高置信在线监控 + 可解释交互”场景中的有效性与可迁移性。针对小尺度与弱对比目标,平台内置的阈值联动、类别筛选与一键导出能力,结合训练曲线与混淆矩阵,可快速定位误检/漏检并驱动回标迭代;部署侧通过 ONNX/TensorRT 与轻量化配置显著降低了端到端延迟,使浏览器端的进度控制与结果回放保持连贯体验。

未来工作将从三条主线推进:模型侧将探索更强的轻量化与蒸馏/量化组合、NMS-free 训练与时序一致性约束,并在小目标上引入动态分辨率、Copy-Paste 与时域投票以缓解 small_fish 类的漏检;系统侧将引入 Docker 化与分布式任务队列、WebRTC 低时延推流、WebGPU/WebNN 前端推理、角色权限与审计、国际化与多租户,以适配边云协同与多项目并行;数据侧将构建主动学习与持续标注的闭环,完善数据治理、漂移监测与异常采样机制,并扩展跨海域/跨季节的数据集与多模态(声学/光学)融合能力。随着这些增强逐步落地,平台将从“实时检测与可视化工具”演进为“数据—模型—系统”一体化的持续学习与运维中台,在更广泛的水下感知与海工巡检任务中复用与扩展。


参考文献(GB/T 7714)

[1] 罗逸豪, 刘奇佩, 张吟, 等. 基于深度学习的水下图像目标检测综述[J]. 电子与信息学报, 2024.
[2] URPC2020 数据集说明[EB/OL]. 2021.
[3] Li C, Guo C, Ren W, et al. An Underwater Image Enhancement Benchmark Dataset and Beyond[Z/OL]. 2019.
[4] Liu R, Fan X, Hou J, et al. Real-world Underwater Enhancement: Challenges, Benchmarks, and Solutions[Z/OL]. 2019.
[5] Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]. 2015.
[6] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]. 2016.
[7] Lin T-Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]. 2017.
[8] Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]. 2020.
[9] Tian Z, Shen C, Chen H. FCOS: Fully Convolutional One-Stage Object Detection[C]. 2019.
[10] Zhou X, Zhuo J, Krähenbühl P. Objects as Points[C]. 2019.
[11] Microsoft. ONNX Runtime Web: WebGPU/WebNN 生态与示例[EB/OL]. 2024–2025.
[12] Rezatofighi H, Tsoi N, Gwak J, et al. Generalized Intersection over Union[C]. 2019.
[13] NVIDIA. TensorRT Documentation: Performance and Samples Guide[EB/OL]. 2025.
[14] Wang C-Y, Yeh I-H, Liao H-Y M. YOLOv9: Learning with Programmable Gradient Information[EB/OL]. 2024.
[15] Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[C]. 2024.
[16] Ye M, et al. RT-DETR: DETRs Beat YOLOs on Real-Time Object Detection[EB/OL]. 2023–2024.
[17] Xu S, Wang X, Lv W, et al. PP-YOLOE: An Evolved Version of YOLO[EB/OL]. 2022.
[18] Hinton G, Vinyals O, Dean J. Distilling the Knowledge in a Neural Network[EB/OL]. 2015.
[19] Jacob B, Kligys S, Chen B, et al. Quantization and Training of Neural Networks for Efficient Integer-Only Inference[C]. 2018.
[20] Li Z, Xu P, Chang X, et al. When Object Detection Meets Knowledge Distillation: A Survey[J]. 2023.
[21] Microsoft. WebNN/WebGPU/ORT Web 开发者预览[EB/OL]. 2024–2025.
[22] Ultralytics. YOLO11 文档与使用说明[EB/OL]. 2024–2025.
[23] Ultralytics. YOLO12: Attention-Centric Object Detection[EB/OL]. 2025.
[24] Ultralytics. YOLO12 发布与应用解读[EB/OL]. 2025.

posted @ 2026-04-23 13:37  逗逗班学Python  阅读(4)  评论(0)    收藏  举报