摘要

本文面向“水下目标（鱼类、贝类、海参、海工构件缺陷等）”的实时检测与可视化需求，构建了基于 Flask + Flask-SocketIO / HTML / CSS / JS 的一体化平台，前后端解耦、推理与交互并行。系统同时集成 YOLOv5–YOLOv12（共8种） 的训练与推理，提供模型选择/权重上传与配置持久化；支持图片/视频/浏览器摄像头输入，并在浏览器端实现左右等宽双画面对比（原图/检测结果）、进度控制（进度条/暂停/继续/停止）、Conf/IoU 调节与类别筛选。检测结果可CSV 导出、带框结果一键下载（图像/视频）、并SQLite 入库以支持历史查询与溯源；含登录/注册（可跳过）的会话管理与权限隔离。平台内置mAP、F1、PR 曲线与训练曲线等评测与可视化面板，用于多版本 YOLO 的横向对比与水下复杂场景（浑浊、低照、反光、漂浮物遮挡）的误检漏检分析；同时提供实时日志与资源监控以保障端到端时延。项目开箱即用，支持本地与服务器部署，适配 ONNX/TensorRT 推理加速与轻量化模型联调；文末提供完整工程与数据集下载链接，便于复现与二次开发。

讲解视频地址：基于深度学习的水下目标检测系统（Web系统+完整项目分享+数据集+多YOLO模型）
YOLOv12-v11/v10/v9/v8/v7/v6/v5系统（八个模型，含说明论文）合集下载：https://mbd.pub/o/bread/YZWck59sZA==
说明论文下载：https://mbd.pub/o/bread/YZWck5xsZA==
YOLOv12下载：https://mbd.pub/o/bread/YZWbmpxuag==
YOLOv11下载：https://mbd.pub/o/bread/YZWbm5psaA==
YOLOv10下载：https://mbd.pub/o/bread/YZWbm5ltaA==
YOLOv9下载：https://mbd.pub/o/bread/YZWbm5ZqbQ==
安装与教程文档：https://deeppython.feishu.cn/wiki/NQJ0wuId2iuVHdkHFLBcTfE4nWc

摘要
1. 网页功能与效果
2. 绪论
3. 数据集处理
4. 模型原理与设计
5. 实验结果与分析
6. 系统设计与实现
- 6.1 系统设计思路
- 6.2 登录与账户管理
代码下载链接
7. 结论与未来工作
参考文献（GB/T 7714）

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 网页功能与效果

（1）登录注册：提供登录、注册与一次性跳过三种入口，登录态在本次会话与多页导航中生效；口令采用哈希存储并结合最小权限策略；成功进入后自动载入个性化配置与历史记录，支持随时注销与切换账号。
在这里插入图片描述

（2）功能概况：系统以“概览 → 图片检测 / 视频检测 / 摄像头检测 → 模型选择 → 导出视图”的动线组织能力；核心功能包含双画面对比、进度控制、阈值与类别筛选、结果入库与导出；支持CSV与带框图片/视频一键下载，记录跨页共享。
在这里插入图片描述

（3）视频检测：播放器提供同步双帧展示（原始帧/检测帧）、进度条与暂停、继续、停止控制；支持关键帧跳转与区间预览，浏览器摄像头可实时推理并缓冲导出MP4；界面可动态调节Conf/IoU并按类别筛选，以便快速定位目标与误检。
在这里插入图片描述

（4）更换模型：上传权重即可切换当前YOLO模型，类别映射与配色同步刷新且在会话内生效；页面标题与品牌元素可编辑并本地保存，便于多项目复用；路径规范跨平台兼容，数据库自动迁移保障版本升级与结果可追溯。
在这里插入图片描述

（5）概览界面：首页集中呈现近期任务、关键指标与资源状态，支持按文件名或时间快速检索并在CSV列表中高亮定位；提供最近模型与阈值配置的快速入口，便于一键复现实验；所有统计与导出入口统一汇聚，减少跨页操作成本。
在这里插入图片描述

2. 绪论

2.1 研究背景与意义

受光的吸收与散射影响，水下图像普遍存在低对比度、强色偏与悬浮颗粒噪声，导致目标（鱼类、贝类、海参、海工缺陷等）呈现小尺度、低信噪与遮挡共存的检测难题，而海洋牧场监测、ROV/AUV作业与海工巡检对实时性与可解释可视化要求极高 [1]。在此背景下，面向工程一线的“检测—评测—交互—溯源”一体化平台可把模型指标转化为可操作的业务能力，通过浏览器端双画面对比、进度与阈值联动、历史记录与CSV导出，支撑远程协同、弱网回传与边缘节点自治，从而提升作业安全与效率 [2]。相较离线算法报告，具备多模型热切换、端到端延迟监测与数据闭环的Web平台，更契合海上持续运行与版本快速迭代的现实需求 [3]。

2.2 国内外研究现状

围绕水下检测的图像退化问题，研究首先聚焦增强与感知模型的协同：基于物理模型与学习先验的增强基准与数据集表明，水下图像存在显著色偏与对比度衰减，直接影响检测器的特征可分性与定位稳定性 [3]。面向应用场景的公开评测推动了类目与划分的标准化，例如URPC系列以海参、海胆、扇贝、海星等典型目标构建评测基线，促进了跨方法的客观对比与复现 [2]。经典两阶段检测在复杂背景下稳健但延迟较高，而单阶段与Anchor-free路线以更低计算开销服务实时需求，成为工程落地的主流选择 [5–7]。
从范式演进看，Anchor-based与Anchor-free在正负样本分配与密集小目标处理上各有优劣，Transformer检测器以集合预测规避NMS在端到端一致性上具备潜力，但训练代价与推理内存需平衡 [8–10]。损失函数方面，GIoU/CIoU/EIoU等在重叠、中心距与长宽比上提供更稳定的几何约束，配合Focal类损失可缓解前景—背景与长尾分布失衡，对水下密集小目标与遮挡场景有效 [7,12]。
YOLO家族持续沿骨干轻量化、特征金字塔与解耦头、动态分配与数据增强改进：YOLOv9引入GELAN与PGI提升梯度利用与训练稳定性，兼顾精度与参数效率 [14]；YOLOv10提出一致性双分配并朝NMS-free训练演进，在同精度下显著降低延迟，强调端到端实时性 [15]；工程生态上的YOLOv11强化易用性与稳定性，适合生产工作负载；YOLOv12进一步在注意力与推理管线上追求上限精度，但在CPU吞吐与显存占用上需工程权衡 [22–24]。
除YOLO外，PP-YOLOE以Anchor-free与TAL分配取得较优的精度—速度折中，适合密集与小目标；RT-DETR以实时端到端集合预测在去NMS与整体时延上具备优势，特别适于重叠抑制与流式推理 [16–17]。在部署层面，ONNX/TensorRT算子融合与INT8量化显著降低端到端时延，WebGPU/WebNN让前端“就地推理+可视化”成为可能，利于“前端快速验证—后端批处理”的协同闭环 [11,13,21]。

表 1 代表性检测方法与部署策略对比（节选）

方法	范式/家族	数据集	关键改进	优势与局限	指标（示例）	适用难点	引用
YOLOv10-S	YOLO/单阶段、NMS-free	COCO	一致性双分配、整体效率设计	端到端低延迟；训练策略依赖性强	同精度较RT-DETR-R18更快	实时视频、弱网回传	[15]
YOLOv9	YOLO/单阶段	COCO	GELAN、PGI	参数效率高；实现细节多	同尺度优于前代	复杂背景、域泛化	[14]
YOLOv11	YOLO/单阶段	多域	结构/训练与生态优化	生产可用性强	官方生产推荐	工程部署	[22]
YOLOv12	YOLO/注意力中心化	多域	注意力与推理优化	上限精度高；显存压力	需工程权衡	高精度检测	[23–24]
PP-YOLOE-L	Anchor-free/单阶段	COCO	CSPRepRes、ET-Head、TAL	工程化完善；体量偏大	51.4 mAP、78.1 FPS(V100)	小目标/密集	[17]
RT-DETR-R50	Transformer/端到端	COCO/Objects365	实时集合预测与解码	去NMS；训练开销	报告~百FPS量级	重叠抑制	[16]
Faster R-CNN	两阶段	COCO/VOC	RPN+RoI Head	稳健；实时性弱	经典基线	复杂背景	[5]
FCOS/CenterNet	Anchor-free/单阶段	COCO	像素/中心点建模	匹配简洁；易扩展	经典基线	密集小目标	[9–10]

综上，国内外研究在“更强的鲁棒性—更低的时延—更便捷的部署”三条线上逐步收敛：以YOLOv10/RT-DETR为代表的端到端与NMS-free方向降低了视频流场景的总时延，以PP-YOLOE/YOLOv9等强化了小目标与密集遮挡的可分性，工程侧的ONNX/TensorRT与WebGPU降低了平台对硬件与网络环境的敏感度，为本文Web平台的实时可视化与多模型对比提供了坚实基底 [13,16–17,21–24]。

2.3 要解决的问题及其方案

（1）准确性与实时性并重：水下小目标、遮挡与强色偏导致误检漏检与高延迟并存，需在模型、数据与系统三层协同优化 [1,3]。方案：以YOLOv12为核心，结合YOLOv5–YOLOv11横向对比与迁移学习，采用CIoU/EIoU等稳定回归损失与难例重加权，配合TensorRT/INT8量化实现端到端低时延 [12–13,22–24]。
（2）环境适应与泛化：跨海域与季节造成域偏移与长尾分布，模型鲁棒性不足 [3]。方案：数据增强与有监督域自适应结合，半监督/主动学习迭代更新样本池，并以知识蒸馏保持轻量模型在边缘端的迁移性 [18–20]。
（3）网页交互与可解释：缺乏“可见、可调、可追溯”的在线操作妨碍业务闭环 [2]。方案：设计双画面对比、同步双帧与进度控制、Conf/IoU与类别筛选联动，结合CSV导出、带框下载与SQLite入库，形成“检测—评测—溯源”闭环。
（4）工程一致性与可维护：多模型、多版本与多端部署下的一致性与可审计要求高 [13]。方案：权重热切换与类别映射同步、路径与数据库自动迁移、日志与资源监控接口，前后端通过SocketIO实现参数/状态一致推送，并支持WebGPU/WebNN前端就地验证 [11,21]。

2.4 博文贡献与组织结构

贡献：（1）系统化梳理水下实时检测的任务难点与算法脉络，并以对比表呈现代表性方法的范式、关键技术与指标，突出与水下场景的适配关系 [1,14–17]；（2）提出以YOLOv12为核心、支持YOLOv5–YOLOv11热切换的训练与推理方案，并结合CIoU/EIoU、蒸馏与TensorRT/量化实现精度—时延的工程折中 [12–13,18–24]；（3）实现基于Flask+SocketIO/HTML/CSS/JS的Web平台，提供双画面对比、同步双帧与一键导出/入库的可视化闭环；（4）给出可复现实验脚本与评测面板，支撑mAP、F1、PR与训练曲线等多维对比。
组织：全文依次介绍网页功能与效果、绪论（含研究现状与对比表）、数据集处理、模型原理与设计（含关键公式与结构示意）、实验结果与分析（含图表与案例）、系统设计与实现（含流程与框图）以及结论与未来工作，以满足读者从原理到工程落地的完整路径需求。

3. 数据集处理

本研究使用的水下目标检测数据集共 5555 张图像，按训练集 5102、验证集 432、测试集 21 的固定划分用于模型开发与评测；类别共 6 个，分别为 crab/螃蟹、fish/鱼、jellyfish/水母、shrimp/虾、small_fish/小鱼、starfish/海星。标注采用 YOLO 格式（每条标注为 class、x、y、width、height，均为 [0,1] 归一化），与统计图中的位置分布与宽高散点图相一致。从提供的类别计数柱状图与成对关系图可见，数据呈明显长尾：crab、small_fish、starfish 为高频，fish 次之，jellyfish 与 shrimp 较少；目标尺度以小目标为主，宽高分布集中在低值区，且目标在画面中的空间分布不均，伴随强色偏、浑浊与局部背光等水下成像退化。抽样可视化显示部分画面存在遮挡、反光标牌与漂浮物干扰，这些现象会直接影响检测器的定位稳定性与类别可分性。

Chinese_name = {"crab": "螃蟹", "fish": "鱼", "jellyfish": "水母", "shrimp": "虾", "small_fish": "小鱼", "starfish": "海星"}

在这里插入图片描述

针对上述特征，数据预处理遵循“轻校正、强多样”的原则：在不破坏真实质感的前提下进行颜色校正与白平衡微调，对极端偏色与低对比样本采用适度对比度拉伸或去雾增强；训练阶段结合随机缩放与长宽比抖动以覆盖多尺度，配合 Mosaic/MixUp、随机水平翻转、亮度/饱和度扰动与运动模糊模拟，增强对小目标、运动与浑浊环境的鲁棒性；对类间不均衡与长尾问题，通过类感知采样与少数类适度过采样、罕见类别的 Copy-Paste 合成以及损失重加权来缓解；同时执行标注质量自检，剔除越界/退化框与严重重复帧，统一分辨率与信噪标准，保证训练—验证—测试三者统计分布的一致性。为保障实验复现，建议固定随机种子（如 42）并冻结划分文件；后续所有模型比较均基于该划分与同一套增强策略，使改进收益可归因于算法而非数据漂移。
在这里插入图片描述

4. 模型原理与设计

本文以YOLOv12为主线实现水下目标的单阶段实时检测。总体范式沿用“骨干—特征颈部—解耦检测头”的三段式结构：骨干采用CSP/C2f风格的多分支残差单元以提升梯度流动与参数利用率，插入轻量级自注意力以增强远程依赖与纹理弱化场景下的判别性；颈部使用自顶向下与自底向上的双向特征金字塔（PAN-FPN），并结合可学习权重的多尺度融合以提升小目标与遮挡目标的可分性；检测头解耦分类与回归分支，同时建模目标存在性（objectness），以减少任务冲突并稳定收敛。针对水下“低对比/强色偏/悬浮物”的退化，本方案在输入侧配合颜色轻校正与多尺度随机缩放，推理侧保持Anchor-free的正负样本分配与动态阈值，从而在小目标密集与背景噪声强的条件下维持稳定的召回率。网络整体架构图如下图所示：
在这里插入图片描述

在结构细节上，注意力与多尺度融合是提升水下鲁棒性的关键。对任意尺度特征\(\mathbf{X}\in\mathbb{R}^{H\times W\times C}\)，自注意力可写为

\[\mathrm{Attn}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V, \]

其中\(Q,K,V\)由\(\mathbf{X}\)线性映射得到，\(\sqrt{d_k}\)用于尺度归一化；为控制延迟，本文使用窗口化/分组或线性注意力替代全局注意力。特征融合采用带可学习非负权重的双向融合：设来自上/下游的特征为\({U_j}\)、权重为\(w_j\ge0\)，则

\[P_i=\frac{\sum_j w_j\cdot U_j}{\sum_j w_j+\varepsilon}, \]

其中\(\varepsilon\)为数值稳定常数；该归一化加权融合对不同清晰度/成像退化的尺度通道具备自适应抑噪能力。检测头采用解耦头，分类分支输出类别概率\(\hat{p}_k\)，回归分支预测边界框偏移\(\hat{b}=(\hat{x},\hat{y},\hat{w},\hat{h})\)，objectness用于抑制背景与浮游噪声，整体在训练期通过动态匹配（如top-k/ATSS/TAL家族）选择正样本，以提升密集场景的稳定性。

损失与任务建模围绕“定位稳定+类别稳健”展开。定位使用IoU族损失以提升几何一致性，基本IoU定义为

\[\mathrm{IoU}(B,B^*)=\frac{|B\cap B^*|}{|B\cup B^*|}, \]

其中\(B\)与\(B^*\)分别为预测与标注框。为更快收敛并在长宽比失配时保持稳定，引入CIoU/EIoU 等形式，例如

\[\mathcal{L}*{\mathrm{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{b},\mathbf{b}^*)}{c^2}+\alpha v, \]

其中\(\rho\)为框中心距离，\(c\)为最小外接框对角线，\(v\)度量长宽比一致性、\(\alpha\)为加权项。分类采用Focal Loss抑制前景/背景不均衡：

\[\mathcal{L}*{\mathrm{FL}}=-\alpha_t(1-p_t)^\gamma\log(p_t), \]

其中\(p_t\)为正类概率，\(\gamma\)控制难例聚焦；配合标签平滑降低类间相似（如“鱼/小鱼”）造成的过置信。为在不牺牲实时性的前提下提升小模型性能，可选用蒸馏（logits/feature/IoU蒸馏）与对比学习增强域内可分性；推理阶段采用NMS-free（训练一致性）或DIoU-NMS两种策略择优，前者降低流水线延迟，后者在重叠密集时更稳健。

训练与正则化策略强调“低时延可复现”。优化器采用带动量与权重衰减的SGD/AdamW，学习率使用余弦退火：\(\eta_t=\eta_{\min}+\tfrac12(\eta_{\max}-\eta_{\min})(1+\cos(\pi t/T))\)，配合Warmup稳定早期训练；BN/SyncBN保持跨卡统计一致，轻度的DropBlock/随机深度用于抑制过拟合但控制在不影响吞吐的强度范围。多尺度训练与混合精度（FP16/FP8）配合ONNX/TensorRT的算子融合与INT8校准，在不改变模型语义的情况下显著降低端到端延迟；阈值方面，针对水下低对比，推理时将置信阈值\(\tau_{\text{conf}}\)与IoU阈值\(\tau_{\text{IoU}}\)联动暴露到Web端，结合同步双帧对比帮助人工快速判定误检/漏检并回灌样本，形成“训练—评测—可视化—样本闭环”的工程设计。整体设计在保证小目标召回与复杂背景抑制的同时，维持端到端实时性以服务于浏览器侧的在线监控与导出。

5. 实验结果与分析

本节基于第 3 章所述划分（训练 5102、验证 432、测试 21），在同一硬件（RTX 3070 Laptop 8 GB）与相同数据预处理下，对 YOLOv5nu、YOLOv6n、YOLOv7-tiny、YOLOv8n、YOLOv9t、YOLOv10n、YOLOv11n、YOLOv12n 以及 YOLOv5su、YOLOv6s、YOLOv7、YOLOv8s、YOLOv9s、YOLOv10s、YOLOv11s、YOLOv12s 进行了端到端评测。指标包含 Precision、Recall、F1、mAP50、mAP50-95 与端到端延迟（Pre/Inf/Post，单位 ms）。下文所有结论均以“同尺寸/同配置、单张推理”的可复现实验为前提。
在这里插入图片描述

从整体趋势看，n 系列在极低延迟与高精度间取得良好平衡：YOLOv8n 以 10.17 ms 的最短端到端时间成为速度优选，而 YOLOv10n 以 0.8379 mAP50-95 在精度上领跑同组，YOLOv12n 则给出最高 F1=0.9812 的稳定召回（“all classes”峰值约在 conf≈0.46，与平台默认阈值一致）。
在这里插入图片描述

s 系列整体更注重上限精度：YOLOv12s 以 0.8567 mAP50-95 略胜 YOLOv6s/YOLOv11s/YOLOv10s，而YOLOv8s 以 11.39 ms 获得最快端到端时间，满足更高帧率的视频流需求。训练曲线显示各模型在 100 轮左右收敛，mAP50 接近 0.99；其中 YOLOv10n 早期震荡较大但后期稳定，与其一致性分配和 NMS-free 训练特性相符。
在这里插入图片描述

类别层面，small_fish 是最具挑战的一类：其 F1-Confidence 曲线整体低于其他类，PR 曲线在高召回端略有下垂，主要受小尺度、低对比与背景相似纹理影响。对策上，可在训练期提高小目标的采样权重与 Copy-Paste 合成比例，叠加尺度抖动与轻量去雾/增益扰动；推理端建议把 conf 设为 0.45–0.50、IoU 设为 0.55–0.65，并结合“同步双帧”核查误检/漏检后回灌样本。
在这里插入图片描述

下面给出一张综合对比表（将 Pre/Inf/Post 求和为 Total 以反映端到端时延；加粗为各组最优）。

表 5-1 代表模型在水下数据集上的综合对比（同环境、单张推理）

组别	Model	Params (M)	FLOPs (G)	Total(ms)	F1	mAP50-95
n	YOLOv5nu	2.6	7.7	10.94	0.9762	0.8200
n	YOLOv6n	4.3	11.1	10.34	0.9734	0.8281
n	YOLOv7-tiny	6.2	13.8	21.08	0.9698	0.7630
n	YOLOv8n	3.2	8.7	10.17	0.9788	0.8259
n	YOLOv9t	2.0	7.7	19.67	0.9749	0.8223
n	YOLOv10n	2.3	6.7	13.95	0.9754	0.8379
n	YOLOv11n	2.6	6.5	12.97	0.9763	0.8241
n	YOLOv12n	2.6	6.5	15.75	0.9812	0.8268
s	YOLOv5su	9.1	24.0	12.24	0.9819	0.8377
s	YOLOv6s	17.2	44.2	12.26	0.9840	0.8565
s	YOLOv7	36.9	104.7	29.52	0.8135	0.5542
s	YOLOv8s	11.2	28.6	11.39	0.9793	0.8410
s	YOLOv9s	7.2	26.7	22.17	0.9824	0.8485
s	YOLOv10s	7.2	21.6	14.19	0.9753	0.8550
s	YOLOv11s	9.4	21.5	13.47	0.9838	0.8548
s	YOLOv12s	9.3	21.4	16.74	0.9858	0.8567

图 5-1 双条形图（n 系）：F1 与 mAP50 对比
图注：八种 n 体量模型的 F1 与 mAP50。配色为学术蓝（F1）与琥珀色（mAP50），便于与表 5-1 对照。
在这里插入图片描述

图 5-2 双条形图（s 系）：F1 与 mAP50 对比
图注：八种 s 体量模型的 F1 与 mAP50。可以看到 v8s 的 F1 优势与 v12s 的 mAP 优势并存，提示“召回—精度”取舍的不同偏好。
在这里插入图片描述

结合表格与曲线，可归纳三点工程结论。其一，在速度优先的流媒体场景，首选 YOLOv8n/YOLOv8s，两者在端到端延迟上均为各组最低，且 mAP50-95 不落后同级。其二，在精度优先且允许略高时延的离线/准实时场景，YOLOv10n（n 组）与 YOLOv12s（s 组）更具优势；若需更高 F1 以提升召回，YOLOv12n/YOLOv12s 值得优先考虑。其三，YOLOv7 代际劣势明显，建议仅作基线对照；YOLOv6/YOLOv11 在综合体验上接近最优，适合生产稳定性要求较高的部署。
在这里插入图片描述

误检/漏检与改进建议。 从混淆矩阵与 PR 曲线看，small_fish 与背景混淆是主要误差来源，位置偏上中区域的小框更易漏检；建议在训练中增强小目标采样、提升输入分辨率一档（如从 640→768）、叠加 Copy-Paste 与随机裁切；推理阶段在平台端联动调节 conf 与 IoU，并开启“带框一键下载+CSV 导出”对可疑帧进行回标复训，形成数据闭环。对于视频流，启用同步双帧与时间窗投票可显著降低偶发漏检；对长尾类别（jellyfish、shrimp），可采用类重加权或半监督挖掘补充样本。

6. 系统设计与实现

6.1 系统设计思路

系统采用四层分工：表现与交互层（Web）—业务与会话管理层—推理与任务调度层—数据持久化层。表现层以 HTML/CSS/JS 构建左/右等宽的双画面与控制面板，通过 Flask-SocketIO 建立原始帧与检测帧两条命名通道，同步绑定时间戳与帧序号；页面的阈值、类别筛选、进度控制与模型切换均以事件流形式回传到后端，前端仅负责渲染与轻量校验，避免阻塞推理主链路。业务与会话管理层负责登录/注册/跳过的会话控制、权限与速率限制、参数分发与任务路由；同一会话中的所有页面共享“运行态快照”（源类型、阈值、类别、模型 ID 等），以保证多页操作的一致性。

推理与任务调度层围绕多源输入（图片/视频/摄像头）构建轻量任务队列：预处理（尺寸规范、颜色轻校正、信噪筛查）→ YOLO 推理（v5–v12 热切换，ONNX/TensorRT 可选）→ 后处理（置信/IoU 过滤、NMS-free 或 DIoU-NMS、统计与曲线采样）→ 帧级结果编码；视频/摄像头路径由专门的“同步双帧”模块保证同帧原图与结果的并行推送，并在用户拖动进度或暂停/继续时进行时间窗一致性校正。模型权重通过“模型注册表”统一管理，上传即插即用并自动刷新类别与配色。数据持久化层以 SQLite 保存任务、结果与统计，文件系统存储带框图片/视频与 CSV；入库采用原子写入与版本号字段以支撑溯源与批量导出，日志/监控接口记录时延、显存与异常事件。

在可扩展性方面，系统以“配置驱动 + 插件化”对模型、导出与可视化进行解耦：新增模型仅需注册推理后端与类别映射；导出侧统一由 Export Manager 聚合带框图、视频片段与 CSV，并支持批量与溯源定位；监控侧提供资源水位与端到端时延的采样口，便于在浏览器端呈现轻量仪表。整体设计保证同步双帧与参数状态在端到端链路中的一致可追踪，并以最小耦合度支持后续的 WebGPU 前端推理或边云协同。

图 6-1 系统流程图
在这里插入图片描述

图注：系统由初始化进入多源输入，依次完成预处理、推理与后处理；双帧与统计同步推送到前端，同时写入数据库并支持一键导出，交互参数回流形成闭环。

图 6-2 系统设计框图
在这里插入图片描述

图注：四层结构清晰分离职责：浏览器端聚焦呈现与控制；业务层统一会话、权限与导出；推理层承担多源任务与同步双帧；数据层负责结果、账户、权重与归档，数据流自上而下闭环回传参数与状态。

6.2 登录与账户管理

在这里插入图片描述

说明：登录流程在校验成功后建立会话并装载个性化参数与历史记录，进入主界面后可随时修改资料且所有变更即时持久化；注销或切换账号将原子性清除会话并回到登录入口，保证与主检测流程（参数同步、导出与入库）的无缝衔接与安全隔离。

代码下载链接

如果您希望获取博客中提及的完整资源包，包含测试图片、视频、Python文件(*.py)、网页配置文件、训练数据集、代码及界面设计等，可访问博主在面包多平台的上传内容。相关的博客和视频资料提供了所有必要文件的下载链接，以便一键运行。完整资源的预览如下图所示：

在这里插入图片描述

资源包中涵盖了你需要的训练测试数据集、训练测试代码、UI界面代码等完整资源，完整项目文件的下载链接可在Gitee项目中找到➷➷➷

完整项目下载、论文word范文下载与安装文档：https://deeppython.feishu.cn/wiki/NQJ0wuId2iuVHdkHFLBcTfE4nWc

讲解视频地址：https://www.bilibili.com/video/BV1i7D9BMEdS/

完整安装运行教程：

这个项目的运行需要用到Anaconda和Pycharm两个软件，下载到资源代码后，您可以按照以下链接提供的详细安装教程操作即可运行成功，如仍有运行问题可私信博主解决：

Pycharm和Anaconda的安装教程：https://deepcode.blog.csdn.net/article/details/136639378；

软件安装好后需要为本项目新建Python环境、安装依赖库，并在Pycharm中设置环境，这几步采用下面的教程可选在线安装（pip install直接在线下载包）：

Python环境配置教程：https://deepcode.blog.csdn.net/article/details/136639396；

7. 结论与未来工作

本文面向水下场景构建了集训练、推理、评测与可视化于一体的实时检测平台，在 Flask+SocketIO 的同步双帧通道与前端双画面对比的配合下，将 YOLOv5–YOLOv12 八种模型的能力以工程形态落地，并完成端到端的导出、入库与溯源闭环；在统一数据与硬件条件下，n 组以 YOLOv8n 获得最低端到端时延（约 10 ms 量级），YOLOv10n 在 mAP50-95 上表现领先，YOLOv12n 取得最高 F1（0.9812），而 s 组的 YOLOv12s 以 0.8567 的 mAP50-95 稳居精度前列，证明平台在“高置信在线监控 + 可解释交互”场景中的有效性与可迁移性。针对小尺度与弱对比目标，平台内置的阈值联动、类别筛选与一键导出能力，结合训练曲线与混淆矩阵，可快速定位误检/漏检并驱动回标迭代；部署侧通过 ONNX/TensorRT 与轻量化配置显著降低了端到端延迟，使浏览器端的进度控制与结果回放保持连贯体验。

未来工作将从三条主线推进：模型侧将探索更强的轻量化与蒸馏/量化组合、NMS-free 训练与时序一致性约束，并在小目标上引入动态分辨率、Copy-Paste 与时域投票以缓解 small_fish 类的漏检；系统侧将引入 Docker 化与分布式任务队列、WebRTC 低时延推流、WebGPU/WebNN 前端推理、角色权限与审计、国际化与多租户，以适配边云协同与多项目并行；数据侧将构建主动学习与持续标注的闭环，完善数据治理、漂移监测与异常采样机制，并扩展跨海域/跨季节的数据集与多模态（声学/光学）融合能力。随着这些增强逐步落地，平台将从“实时检测与可视化工具”演进为“数据—模型—系统”一体化的持续学习与运维中台，在更广泛的水下感知与海工巡检任务中复用与扩展。

参考文献（GB/T 7714）

[1] 罗逸豪, 刘奇佩, 张吟, 等. 基于深度学习的水下图像目标检测综述[J]. 电子与信息学报, 2024.
[2] URPC2020 数据集说明[EB/OL]. 2021.
[3] Li C, Guo C, Ren W, et al. An Underwater Image Enhancement Benchmark Dataset and Beyond[Z/OL]. 2019.
[4] Liu R, Fan X, Hou J, et al. Real-world Underwater Enhancement: Challenges, Benchmarks, and Solutions[Z/OL]. 2019.
[5] Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]. 2015.
[6] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]. 2016.
[7] Lin T-Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]. 2017.
[8] Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]. 2020.
[9] Tian Z, Shen C, Chen H. FCOS: Fully Convolutional One-Stage Object Detection[C]. 2019.
[10] Zhou X, Zhuo J, Krähenbühl P. Objects as Points[C]. 2019.
[11] Microsoft. ONNX Runtime Web: WebGPU/WebNN 生态与示例[EB/OL]. 2024–2025.
[12] Rezatofighi H, Tsoi N, Gwak J, et al. Generalized Intersection over Union[C]. 2019.
[13] NVIDIA. TensorRT Documentation: Performance and Samples Guide[EB/OL]. 2025.
[14] Wang C-Y, Yeh I-H, Liao H-Y M. YOLOv9: Learning with Programmable Gradient Information[EB/OL]. 2024.
[15] Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[C]. 2024.
[16] Ye M, et al. RT-DETR: DETRs Beat YOLOs on Real-Time Object Detection[EB/OL]. 2023–2024.
[17] Xu S, Wang X, Lv W, et al. PP-YOLOE: An Evolved Version of YOLO[EB/OL]. 2022.
[18] Hinton G, Vinyals O, Dean J. Distilling the Knowledge in a Neural Network[EB/OL]. 2015.
[19] Jacob B, Kligys S, Chen B, et al. Quantization and Training of Neural Networks for Efficient Integer-Only Inference[C]. 2018.
[20] Li Z, Xu P, Chang X, et al. When Object Detection Meets Knowledge Distillation: A Survey[J]. 2023.
[21] Microsoft. WebNN/WebGPU/ORT Web 开发者预览[EB/OL]. 2024–2025.
[22] Ultralytics. YOLO11 文档与使用说明[EB/OL]. 2024–2025.
[23] Ultralytics. YOLO12: Attention-Centric Object Detection[EB/OL]. 2025.
[24] Ultralytics. YOLO12 发布与应用解读[EB/OL]. 2025.

posted @ 2026-04-23 13:37 逗逗班学Python 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

deeppython

最新YOLO实现的水下目标实时检测平台（Flask+SocketIO+HTML_CSS_JS）

摘要

1. 网页功能与效果

2. 绪论

2.1 研究背景与意义

2.2 国内外研究现状

2.3 要解决的问题及其方案

2.4 博文贡献与组织结构

3. 数据集处理

4. 模型原理与设计

5. 实验结果与分析

6. 系统设计与实现

6.1 系统设计思路

6.2 登录与账户管理

代码下载链接

7. 结论与未来工作

参考文献（GB/T 7714）

公告