摘要

本文面向机械构件表面金属锈蚀实时检测场景，构建基于 Flask + Flask-SocketIO / HTML / CSS / JS 的Web 网页界面与后端推理平台，前端支持图片 / 视频 / 浏览器摄像头三类输入，提供即时双画面对比（原图 vs. 检测结果，16:9 自适应）、视频同步双帧展示与进度控制（暂停 / 继续 / 跳转 / 停止）；推理参数含 Conf / IoU 调节、类别筛选，并可一键CSV 导出、带框结果下载（图像/视频）与SQLite 入库；系统含登录 / 注册（可跳过）与权限会话，支持模型选择 / 权重上传的热切换，自动刷新类别清单并记录配置。算法侧覆盖 YOLOv5–YOLOv12（共 8 种），在统一数据与训练规程下对比 mAP、F1、PR 曲线、训练曲线与延迟/吞吐，面向锈蚀细小斑点、纹理近似、反光遮挡与尺度差异等难点给出针对性增强与后处理策略；同时支持CSV 高亮定位最近记录、检测记录跨页共享与导出视图集中管理，满足产线质检与在现场巡检的可追溯需求。工程默认 PyTorch 推理，提供 ONNX/TensorRT 部署脚手架与轻量化选项，适配边缘设备的实时约束。文末提供完整工程与数据集下载链接。

讲解视频地址：基于深度学习的金属锈蚀检测系统（Web系统+完整项目分享+数据集+多YOLO模型）
YOLOv12-v11/v10/v9/v8/v7/v6/v5系统（八个模型，含说明论文）合集下载：https://mbd.pub/o/bread/YZWck55vaA==
说明论文下载：https://mbd.pub/o/bread/YZWck5tyZQ==
YOLOv12下载：https://mbd.pub/o/bread/YZWbmplyZg==
YOLOv11下载：https://mbd.pub/o/bread/YZWbm5lyZw==
YOLOv10下载：https://mbd.pub/o/bread/YZWbm5htaw==
YOLOv9下载：https://mbd.pub/o/bread/YZWbmp9uZQ==
安装与教程文档：https://deeppython.feishu.cn/wiki/KRO6wASvWi5KaMkhommcu7efn6f

摘要
1. 网页功能与效果
2. 绪论
3. 数据集处理
- 4. 模型原理与设计
- 5. 实验结果与分析
6. 系统设计与实现
- 6.1 系统设计思路
- 6.2 登录与账户管理
代码下载链接
7. 结论与未来工作
参考文献（GB/T 7714）

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 网页功能与效果

（1）登录注册：提供登录、注册与一次性跳过三种入口，登录后会话在当前标签与后端同时生效并保留个性化配置与权限。口令采用哈希存储并结合最小化会话策略，兼顾便捷与安全。未登录用户仅受限于导出与历史记录等敏感操作。
在这里插入图片描述

（2）功能概况：平台支持图片、视频与浏览器摄像头输入，提供左右等宽、16:9 自适应的双画面对比与同步双帧显示。内置 Conf/IoU 调节、类别筛选、CSV 导出与带框图片/视频一键下载，检测记录跨页共享并支持最近记录高亮定位。
在这里插入图片描述

（3）视频检测：支持进度条精确跳转、暂停、继续与停止控制，保证帧级同步与结果稳定展示。实时统计帧率、检测数量与类别分布，可选缓冲段导出为 MP4，便于留痕与复核。
在这里插入图片描述

（4）更换模型：上传新权重即可切换当前模型，类别清单与阈值面板同步刷新，避免配置漂移。系统兼容多版本 YOLO（v5–v12），并在后台记录模型信息与使用轨迹，方便回滚与对比。
在这里插入图片描述

（5）概览界面：呈现近期任务概况、模型性能快照与导出入口，支持按时间与文件名快速筛选与溯源。首页卡片化布局聚合最近会话、告警统计与处理进度，帮助用户快速回到工作流的关键节点。
在这里插入图片描述

2. 绪论

2.1 研究背景与意义

金属构件在桥梁、石化、船舶与电力等长期服役场景中易受潮湿、盐雾与应力耦合作用产生锈蚀，造成强度衰减与安全隐患，全球腐蚀成本被估算约 2.5 万亿美元（约占全球 GDP 的 3.4%），有效监测与防护可显著降低损失[1]。传统依赖人工巡检与离线抽检的方案存在主观性强、覆盖慢与成本高的问题，而基于机器视觉与深度学习的在线检测可在产线或边缘设备上实现 24/7 实时质控与预警，已在钢材表面缺陷与腐蚀识别方向展现出可行性[2]。浏览器侧推理与云边协同正在成为工程落地的重要路径：借助 ONNX Runtime Web 的 WebGPU 后端，可在用户本地设备上运行轻量 YOLO 推理并完成流式交互，降低数据出域与端到端时延[3]。在数据层面，以 NEU-DET 为代表的金属表面缺陷数据集提供了多类典型缺陷样本，为锈蚀与缺陷共存场景的模型训练与评测提供了可复现实验基准[4]。

2.2 国内外研究现状

围绕“类间相似度高、目标尺寸差异大、强反光与遮挡并存、实时性要求高”的锈蚀检测难点，单阶段检测器因工程易用性与时延优势成为主流技术路线，其中 YOLOv5 奠定了训练—导出—多后端部署的一体化范式[5]。YOLOv7 通过可训练的 bag-of-freebies 与结构重参数化在实时场景取得较高精度上限[6]，YOLOv8 在解耦头、数据增强与部署生态方面进一步完善端到端体验[7]。YOLOv9 引入可编程梯度信息（PGI）与 GELAN 缓解特征信息通路瓶颈[8]，YOLOv10 以 NMS-free 训练与结构级优化在同精度下显著降低延迟[9]，而最新的 YOLO11 强化了训练与导出链路的工程化能力[10]，YOLOv12 则以注意力为中心的实时检测设计在同等速度下进一步提升精度[11]。与之并行，PP-YOLOE 采用 Anchor-free 与动态标签分配（TAL）在 COCO 上实现高 mAP 与高 FPS 的平衡，适配工业部署需求[12]，而 YOLOX 以 SimOTA 与解耦头在相近参数量下提升 AP 并兼顾复现与落地[13]。端到端 Transformer 检测器方面，DETR 以集合预测消除 NMS 但早期收敛与小目标存在挑战[14]，RT-DETR 在架构与匹配策略上面向实时场景优化并实现百 FPS 量级推理，为在线质检提供另一条路线[15]。此外，FCOS 的逐像素预测与 CenterNet 的“点即物”建模在密集小目标与形变场景具有优势，可作为锈蚀/缺陷检测的补充或教师模型[16][17]；部署层面，TensorRT 等推理引擎与量化技术常与上述检测器结合以获得 1.5–3× 的时延改善，满足产线实时性约束[18]。

表 1 代表性检测与部署方法对比（节选）
注：指标为论文或官方报告典型数值/结论，硬件与度量口径可能不同，复现时请以统一环境评测。

方法	范式/家族	典型数据集	关键改进技术	优势与局限性	关键性能指标（示例）	适用场景或难点
YOLOv7	单阶段/YOLO	COCO	Trainable BoF、E-ELAN	精度/速度上限高；较大模型端侧部署门槛高	56.8% AP（≥30 FPS，V100）[6]	复杂背景下的实时检测
YOLOv8	单阶段/YOLO	COCO	解耦头、增强与导出生态	易用、生态完善；需按场景细化微调	官方多尺度报告与模型库[7]	工程一体化落地
YOLOv9	单阶段/YOLO	COCO	PGI、GELAN	训练信号可编程；实现复杂度提高	同量级模型精度提升的论文报告[8]	纹理相近小目标
YOLOv10	单阶段/YOLO	COCO	NMS-free、一对多分配	端到端低时延；对数据质量敏感	v10-S 同精度较 RT-DETR-R18 约 1.8× 更快[9]	低延迟产线
YOLO11	单阶段/YOLO	COCO	训练/导出链优化	工程化程度高；需结合场景调参	官方文档与模型库[10]	生产与教学并用
YOLOv12	单阶段/YOLO	COCO	注意力中心设计	在相近速度下提高 mAP；实现细节较新	论文报告同速下精度提升[11]	实时高精度检测
PP-YOLOE-L	单阶段/Anchor-free	COCO	CSPRepRes、ET-Head、TAL	高 mAP 与高 FPS；训练资源需求中等	51.4 mAP / 78.1 FPS（V100），TRT 149.2 FPS[12]	边缘 GPU 在线
YOLOX-L	单阶段/Anchor-free	COCO	SimOTA、解耦头	复现广、部署友好；对标注质量敏感	50.0 AP / 68.9 FPS（V100）[13]	遮挡与长尾
DETR	Transformer	COCO	匈牙利匹配、查询机制	端到端、免 NMS；早期收敛慢	与两阶段方法相当的精度[14]	结构复杂场景
RT-DETR	Transformer	COCO	轻量解码与实时优化	端到端且高 FPS；对分辨率敏感	R50 约百 FPS 量级（仓库报告）[15]	实时端到端
FCOS	Anchor-free	COCO	逐像素回归	去先验、匹配简单；阈值敏感	ResNeXt-101 上约 44.7% AP[16]	密集小目标
CenterNet	Anchor-free	COCO	物体中心点建模	对形变友好；尺寸极小目标仍具挑战	~37.4% AP @ 52 FPS[17]	形变/遮挡
TensorRT（部署）	推理引擎	—	图优化、混合精度、INT8 量化	1.5–3× 时延改善；需校准与适配	官方文档与实践经验[18]	硬实时部署

2.3 要解决的问题及其方案

（1）准确性与实时性：锈蚀区域与背景纹理高度相似、尺度跨度大且易被反光干扰，需在 mAP、F1 与时延之间取得平衡；本系统以 YOLOv12 为核心并与 YOLOv5–YOLOv11 建立统一基线对比，同时在服务器端与浏览器端分别构建 TensorRT/ONNX WebGPU 推理链路以实现毫秒级响应[11][10]。
（2）环境适应与泛化：不同材质、工况与光照导致域偏移显著；方案采用增强与迁移学习，并结合 PGI（YOLOv9）与 NMS-free（YOLOv10）等训练策略在多域再训练中提升鲁棒性[8][9]。
（3）网页端交互完整性：提供图片/视频/摄像头统一入口、双画面对比、视频进度控制与结果导出，后端以 Flask+SocketIO 实现参数与推理结果的双向同步，满足在线复核与追溯的业务闭环（无引文）。
（4）数据处理效率与存储安全：利用异步队列与分片缓存降低时延，采用最小授权的登录/会话与口令哈希保障访问安全，并以集中导出/索引实现结果的可审计管理（无引文）。

2.4 博文贡献与组织结构

（1）综合文献综述：系统梳理 YOLOv5–YOLOv12 与 RT-DETR 等方法在金属锈蚀/缺陷检测中的性能与部署取舍，并给出可追溯对比与工程实践要点[6]。
（2）模型选择与优化：以 YOLOv12 为核心，结合 NMS-free/解耦头/多尺度融合等策略，在不牺牲实时性的前提下提升 mAP 与 F1，并提供从训练到导出的完整链路[9][11]。
（3）美观友好的网页设计：构建 Flask+SocketIO 与原生 HTML/CSS/JS 的浏览器端，提供双画面对比、同步双帧与进度控制，并支持前端相机与缓存片段导出，贴合生产与巡检需求（无引文）。
（4）算法效果对比分析：在统一数据与超参下客观比较 YOLOv5–YOLOv12 的 mAP、F1、PR 与训练曲线，并结合混淆矩阵分析误检漏检成因与改进方向（无引文）。
（5）完整的数据与代码资源：提供工程与数据集下载，同时给出基于 ONNX Runtime Web 的浏览器侧演示以便教学与评审[3]。

3. 数据集处理

本研究使用的金属锈蚀数据集共 5218 张图像，按训练/验证/测试 = 4177/782/259 划分；类别仅含 rust（中文：锈蚀），对应映射 Chinese_name={'rust':'锈蚀'}。标注采用 YOLO 格式（归一化的 x y w h，以图像宽高为 1 的坐标系），用户提供的分布图显示中心点 ((x,y)) 近似均匀、而 (w,h) 呈明显长尾，小框占比较高；随机网格与直方图亦表明目标在画面中多处出现但以边/角落为主，符合巡检场景“远近尺度混杂、锈斑大小悬殊”的特点。样例拼图与可视化截图可见不同材质与光照条件下的锈蚀形态（片状、点蚀、条带、剥落边缘等），多目标与遮挡情况常见，验证集与测试集在拍摄角度与背景纹理上保持与训练集一致的分布，以减少域偏移的评价偏差；数据划分采用固定随机种子 42 并按“图像级目标数分层”切分，保证小目标密集样本在三套数据中均有覆盖。

Chinese_name = {'rust': "锈蚀"}

在这里插入图片描述

为提升数据质量与可复现性，预处理阶段先进行 重复图片去重（感知哈希） 与 标签一致性校验（空标/越界/零面积框清理），随后统一采用 Letterbox 到训练尺寸（默认 640 的多尺度区间 512–960，步长 32），并保存原始分辨率用于高精度推理与导出；针对标注中的异常框，我们将 (w) 或 (h>0.9) 的样本纳入人工复核列表，(\text{IoU}>0.95) 的重叠框做非极大值合并，以减少训练噪声。增强策略围绕本任务难点设计：开启 Mosaic(0.8) 与 MixUp(0.15) 提升小目标与稀有组合的覆盖，配合 RandomPerspective(0.0–0.001) 控制几何扰动强度以避免细窄锈带形变过大；光照侧采用 HSV 抖动、Gamma/CLAHE 自适应对比度 抑制强反光与曝光不均，纹理侧引入 Copy-Paste（锈斑贴片） 在相近材质上复用细粒度锈蚀纹理；考虑到 Mosaic 对收敛早期的扰动，前 3 个 epoch 关闭 Mosaic 做冷启动，之后再逐步开启。训练与评测阶段保持 类别权重=1（单类任务无需重加权），但在损失函数中启用 小目标增益（按目标面积对回归项加权）以缓解 (w,h) 长尾导致的定位偏差；同时在验证/测试时严格禁用随机增强，仅保留 Letterbox 与色彩归一化，确保指标稳定。上述清洗与增强策略与“类间相似、尺度差异、反光遮挡、目标密集”的场景难点一一对应，使数据侧对模型侧（YOLOv5–YOLOv12）的比较更具代表性与可重现性。
在这里插入图片描述

4. 模型原理与设计

本文以 YOLOv12 为主线（兼容 YOLOv5–YOLOv11 的训练与部署链路），采用单阶段、Anchor-free + 解耦头范式，在多尺度特征图上同时学习分类概率与边界框回归量，形成“特征提取（Backbone）—特征融合（Neck）—检测头（Head）”的端到端结构。Backbone 延续 CSP/C2f 家族以保持梯度流动与参数效率，Neck 采用自顶向下与自底向上融合的 PAFPN/BiFPN 变体以覆盖锈蚀的多尺度与细长形态，Head 解耦为分类分支与回归分支以降低梯度冲突；推理阶段提供 NMS-free 与 轻量 NMS 两条路径，便于在服务器与浏览器端按设备能力进行切换。为更好应对强反光、纹理相似与小目标密集等难点，模型在低层通道加入轻量注意力与分布式回归（DFL）等组件，并通过一对多质量引导的标签分配提升小目标召回。

在结构细节上，Neck 的跨尺度融合可抽象为

\[P_{\ell}=\phi!\left(,[,C_{\ell},;\mathrm{Up}(P_{\ell+1}),],\right), \]

其中 (C_\ell) 为 Backbone 第 (\ell) 层特征，(P_{\ell+1}) 为上一尺度的融合特征，([,\cdot,]) 表示串接，(\phi) 为卷积-归一化-激活组合，用以增强对“细小斑点与条带锈”同时存在时的判别力。为抑制镜面高光对定位与分类的干扰，可在 Neck/Head 插入缩放点积注意力，其形式为

\[\mathrm{Attn}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^{\top}}{\sqrt{d_k}}\right)V, \]

其中 (Q,K,V) 分别为查询、键、值，(d_k) 为键的维度；工程上采用窗口化或分组策略以控制时延。解耦检测头输出为分类概率向量 (p\in[0,1]^C) 与框参数 (\hat{b}=(\hat{x},\hat{y},\hat{w},\hat{h}))，其中 ((\hat{x},\hat{y})) 为归一化中心点，((\hat{w},\hat{h})) 为归一化宽高。网络整体架构图如下图所示：
在这里插入图片描述
任务建模采用“分类损失 + 回归损失 + 质量/分布约束”的解耦目标。若使用 Focal Loss 抑制前景-背景不平衡，其形式为

\[\mathcal{L}*{\mathrm{cls}} =-\alpha,y(1-p)^{\gamma}\log p -(1-\alpha)(1-y)p^{\gamma}\log(1-p), \]

其中 (y\in{0,1}) 为标签，(p) 为预测概率，(\alpha) 调节类间权重，(\gamma) 强化难样本。边界框回归采用 IoU 家族损失以提高定位稳定性，本文默认 CIoU：

\[\mathcal{L}*{\mathrm{CIoU}} =1-\mathrm{IoU} +\frac{\rho^2(\mathbf{c},\mathbf{c}^{g})}{c^{2}} +\alpha v, \qquad v=\frac{4}{\pi^{2}}!\left(\arctan\frac{w^{g}}{h^{g}}-\arctan\frac{w}{h}\right)^{2}, \qquad \alpha=\frac{v}{(1-\mathrm{IoU})+v}, \]

其中 (\mathbf{c},\mathbf{c}^{g}) 为预测/真值框中心，(c) 为最小外接框对角线，((w,h)) 与 ((w^{g},h)) 为预测/真值宽高；该项同时考虑重叠、中心距离与长宽比，有助于“细长锈带”场景的稳定收敛。若启用 DFL，则在每条边的离散分布上最小化交叉熵，并以 IoU 质量为权重进行对齐；标签分配采用 SimOTA/TAL 或 v10 风格一对多策略，使长尾与密集遮挡样本获得更多正样本覆盖。

训练与正则化围绕“高召回的小目标、反光抑制、实时推理友好”展开：优化器使用 SGD 或 AdamW，学习率采用余弦退火

\[\eta_t=\eta_{\min}+\tfrac{1}{2}(\eta_{\max}-\eta_{\min})!\left(1+\cos\frac{\pi t}{T}\right), \]

其中 (t) 为当前步，(T) 为总步数；在早期使用 Warmup 稳定梯度，配合 BatchNorm 与 EMA 保持统计一致。结合第 3 章的数据画像（(w,h) 长尾、小框占优、位置分布广），训练时对小目标样本给予额外增益并采用多尺度训练；推理端按场景预算选择 NMS-free 或 轻量 NMS，常用阈值为置信度 0.25、IoU 0.45，浏览器侧可下调分辨率并启用半精度以满足帧率。整体设计在 Flask + Flask-SocketIO 流式推理链路中保持稳定帧率与一致绘制，支持 Web 端的即时双画面对比、视频同步双帧与进度控制，从而在金属锈蚀的“类间相似、尺度差异、反光遮挡、目标密集”难点下实现实时可用的检测体验。

5. 实验结果与分析

本章在 NVIDIA GeForce RTX 3070 Laptop GPU（8 GB） 上统一评测 YOLOv5–YOLOv12 的轻量配置，分为 n 系（nano/tiny 量级） 与 s 系（small/轻中量级） 两组；数据集为第 3 章所述 金属锈蚀单类数据（5218 张，训练/验证/测试 = 4177/782/259），统一训练策略与推理尺寸（默认 640，多尺度开启）。指标采用 Precision、Recall、F1、mAP@0.5、mAP@0.5:0.95，同时记录 预处理/推理/后处理时延。阈值方面，验证集 F1-Confidence 曲线显示最佳点约在 Conf ≈ 0.356，下文分析均据此给出（PR/F1 曲线与混淆矩阵见上图，rust 类召回约 0.77，背景处理接近 1.0，受单类设置与归一化方式影响）。
在这里插入图片描述

总体结论：在 n 系中，YOLOv12n 取得最高 mAP@0.5 = 0.835 且综合表现稳定，但 F1 最优为 YOLOv7-tiny（0.840）；若以 端到端时延优先，YOLOv8n/YOLOv6n 的总耗时约 10 ms 更具实时优势；
在这里插入图片描述

在 s 系中，YOLOv7 以 mAP@0.5 = 0.913 / F1 = 0.898 达到显著精度上限，但单帧总耗时约 29.5 ms，YOLOv8s/YOLOv11s 在 ≈11–13 ms 取得 0.848/0.850 的 mAP，更适合网页端流畅演示与产线实时反馈。
在这里插入图片描述

表 5-1 代表模型在测试集的主要结果（单位：ms / %）
注：总时延≈Pre+Inf+Post，仅示最关键列；完整原始数据见文末工程。

组别	模型	参数(M)	FLOPs(G)	InfTime	总时延	F1	mAP@0.5	mAP@0.5:0.95
n	YOLOv5nu	2.6	7.7	7.73	10.94	0.794	0.816	0.621
n	YOLOv6n	4.3	11.1	6.78	10.34	0.802	0.819	0.635
n	YOLOv7-tiny	6.2	13.8	14.74	21.08	0.840	0.859	0.622
n	YOLOv8n	3.2	8.7	6.83	10.17	0.785	0.780	0.608
n	YOLOv9t	2.0	7.7	16.51	19.67	0.800	0.815	0.634
n	YOLOv10n	2.3	6.7	11.24	13.95	0.797	0.821	0.638
n	YOLOv11n	2.6	6.5	9.44	12.97	0.800	0.820	0.630
n	YOLOv12n	2.6	6.5	12.47	15.75	0.816	0.835	0.648
s	YOLOv5su	9.1	24.0	8.45	12.24	0.807	0.830	0.645
s	YOLOv6s	17.2	44.2	8.59	12.26	0.787	0.759	0.614
s	YOLOv7	36.9	104.7	23.62	29.52	0.898	0.913	0.730
s	YOLOv8s	11.2	28.6	7.66	11.39	0.824	0.848	0.668
s	YOLOv9s	7.2	26.7	18.66	22.17	0.809	0.825	0.655
s	YOLOv10s	7.2	21.6	11.38	14.19	0.811	0.836	0.662
s	YOLOv11s	9.4	21.5	9.74	13.47	0.829	0.850	0.673
s	YOLOv12s	9.3	21.4	13.23	16.74	0.821	0.833	0.662

图 5-A（n 系）· F1 & mAP@0.5 双条形图
在这里插入图片描述

图 5-B（s 系）· F1 & mAP@0.5 双条形图
在这里插入图片描述

现象解读
第一，精度—延迟权衡：n 系里 YOLOv7-tiny 的 F1 与 mAP 领先，但后处理耗时较高（NMS/解码占比较大），导致总时延约 21 ms；如需 10 ms 级流畅网页演示，YOLOv8n/YOLOv6n 更合适；若追求更高的 mAP 与稳定 PR 曲线，YOLOv12n 是更平衡的选择。第二，s 系中 YOLOv7 的 AP 上限最强，但 YOLOv8s/YOLOv11s 在几乎 1/2–1/3 的时延下给出 0.848/0.850 mAP，适合在线推理与浏览器端 SocketIO 同步双帧显示。
在这里插入图片描述

第三，从 F1-Confidence 曲线看，Conf≈0.35 可在保证召回的同时控制误报；PR 曲线显示 YOLOv12n/YOLOv11s 在高召回段的精度衰减更缓，适合“锈蚀稀疏但代价高的漏检”场景。
在这里插入图片描述

第四，混淆矩阵提示 rust 类召回约 0.77，误检主要来自 铁锈色纹理与阴影/污渍，漏检则集中在 低对比、反光或细长条带，与第 3 章的长尾与尺度分布一致。
在这里插入图片描述

结构性原因与改进建议
（1）解耦头 + 一对多分配（YOLOX/YOLOv10 风格）对密集小目标更友好，建议在 n 系上保留该策略，并将 DFL 与 CIoU/EIoU 结合以稳住细长框回归。
（2）针对 反光与低对比，在训练时加入 Gamma/CLAHE 与 Specular 消光类增强，并在 Neck 低层引入 轻量注意力（例如 SE/ECA），在不增加明显 FLOPs 的前提下提高纹理判别。
（3）阈值与 NMS 策略：生产部署建议默认 Conf=0.35, IoU=0.45；若采用 NMS-free 端到端模型（v10 风格），可在服务器端保留，而在浏览器端依据负载切换为轻量 NMS 以稳定帧率。
（4）工程落地：Web 端（Flask+SocketIO）优先选择 YOLOv8n/YOLOv11s 等 ≤13 ms 的模型，便于维持 同步双帧+进度控制；产线/离线批处理可选 YOLOv7/YOLOv12n/s 获得更高上限并结合 TensorRT/INT8 进一步压缩时延。

6. 系统设计与实现

6.1 系统设计思路

系统采用分层架构以支撑“多源输入—实时推理—可视交互—可追溯导出”的完整闭环。表现与交互层为浏览器 Web 界面，统一承载图片、视频与摄像头入口，内置左右等宽双画面与进度控制；业务与会话管理层以 Flask + Flask-SocketIO 维持长连接通道与会话态，负责路由、权限与参数同步（Conf/IoU/类别筛选）以及任务编排；推理与任务调度层管理图像/视频/摄像头三类任务的并行队列，执行预处理、YOLO 推理、后处理与统计汇总；数据持久化层以 SQLite 记录任务元数据、账户与权限、检测结果与导出索引，并提供审计日志与溯源接口。各层通过事件总线与状态存储解耦，保证在模型热切换与多任务并发下的稳定性。

系统的端到端数据流从浏览器端发起：用户选择输入源并下发参数，后端根据任务类型分配工作单元，预处理执行 Letterbox/归一化与时间戳注入；推理阶段由 PyTorch/ONNX/TensorRT 后端加载当前权重完成前向计算；后处理包含 NMS-free 或轻量 NMS、阈值过滤与框归一化回写，同时计算帧率、检测数量与类别分布。为实现同步双帧，平台对“原始帧/渲染帧”打同一 frame_id 与单调递增时间戳，通过 SocketIO 房间机制以同包或同序列推送到前端双画面，确保暂停/继续/跳转操作的可预期一致性。统计信息与缩略图写入缓存并周期性入库，导出组件集中管理 CSV、带框图片/视频与批量下载清单。

在可扩展性与韧性方面，模型管理支持权重上传后“冷备—预热—原子切换”，同时刷新类别清单与默认阈值并生成配置快照，用于回滚与对比；路径规范与数据库迁移脚本保障跨平台兼容与版本演进；监控接口采集推理延迟、GPU/显存、消息堆积与错误率，触发自恢复与限流策略。会话与权限在全链路生效，未登录用户可体验检测但受限于历史与导出操作；所有导出记录与参数被标注追踪 ID，便于审计与复盘。

图 6-1 系统流程图
图注：系统自初始化到多源输入，完成预处理、推理与界面联动；参数通过 SocketIO 回传形成交互闭环。
在这里插入图片描述

图 6-2 系统设计框图
图注：以层次化方式呈现 Browser、业务与会话、推理与调度、数据与运维模块的边界与数据流向，强调模型热切换与导出管理的集中化。
在这里插入图片描述

6.2 登录与账户管理

图注：展示从打开登录页到进入主界面、个性化加载与资料修改，再到注销/切换的完整流程；注册写库、登录建会话，未登录路径下限制导出与历史访问。
在这里插入图片描述

为保证体验连续性与数据一致性，登录成功后会话信息在浏览器与后端同时生效，系统自动加载用户最近一次使用的模型、展示配置与导出偏好并回到“概览”页；若用户选择跳过登录，系统仍允许进行检测与参数调整，但对历史记录、批量导出和入库等操作施加限制；资料修改在校验后更新入库并刷新会话态，使检测流程在权限约束下与个性化设置无缝衔接。

代码下载链接

如果您希望获取博客中提及的完整资源包，包含测试图片、视频、Python文件(*.py)、网页配置文件、训练数据集、代码及界面设计等，可访问博主在面包多平台的上传内容。相关的博客和视频资料提供了所有必要文件的下载链接，以便一键运行。完整资源的预览如下图所示：

在这里插入图片描述

资源包中涵盖了你需要的训练测试数据集、训练测试代码、UI界面代码等完整资源，完整项目文件的下载链接可在Gitee项目中找到➷➷➷

完整项目下载、论文word范文下载与安装文档：https://deeppython.feishu.cn/wiki/KRO6wASvWi5KaMkhommcu7efn6f

讲解视频地址：https://www.bilibili.com/video/BV17hQwBhEMB/

完整安装运行教程：

这个项目的运行需要用到Anaconda和Pycharm两个软件，下载到资源代码后，您可以按照以下链接提供的详细安装教程操作即可运行成功，如仍有运行问题可私信博主解决：

Pycharm和Anaconda的安装教程：https://deepcode.blog.csdn.net/article/details/136639378；

软件安装好后需要为本项目新建Python环境、安装依赖库，并在Pycharm中设置环境，这几步采用下面的教程可选在线安装（pip install直接在线下载包）：

Python环境配置教程：https://deepcode.blog.csdn.net/article/details/136639396；

7. 结论与未来工作

本文围绕金属锈蚀场景构建了集训练—推理—可视化—导出—追溯于一体的实时检测平台：后端以 Flask+Flask-SocketIO 实现流式通信与会话管理，前端以浏览器页面统一承载图片/视频/摄像头输入与即时双画面对比、进度控制、阈值与类别筛选；算法侧对 YOLOv5–YOLOv12 八种模型在统一数据与策略下完成系统对比，结合 5218 张单类数据集的长尾与小目标分布，给出了F1≈0.84（n 线最佳）、mAP@0.5 最高 0.913（s 线 YOLOv7）/0.835（n 线 YOLOv12n）的实证结果，并在≈10–13 ms 的端到端时延下实现网页流畅演示；配套的CSV 导出、带框结果一键下载与 SQLite 入库支撑审计与复盘。总体看，解耦头、质量引导的一对多标签分配与 CIoU/DFL 组合在细长锈带与反光干扰下表现稳健，而浏览器—后端的同步双帧与参数回传保证了人机协同标注与在线复核的体验一致性。

未来工作将从三条主线推进。其一是模型侧：探索更极致的轻量化与端到端范式，包括蒸馏（教师：s 线/大模型，学生：n 线）、结构化剪枝与 INT8/PTQ+QAT 量化，结合 TensorRT/ONNX Runtime WebGPU 的算子融合以进一步降低延迟；引入多模态与跨帧时序建模（轻量 Transformer/时序一致性正则）提高低对比、强反光与遮挡场景的召回，并评估自适应阈值与自监督预训练对小样本域的收益。其二是系统侧：完成 Docker 化与 CI/CD，采用分布式任务队列（如 Celery/RQ + Redis）与弹性推理池（GPU/CPU/边缘混合），接入WebRTC 低延迟推流、角色权限与审计、多租户与 i18n，并开放 REST/WebSocket API 以便与 MES/CMMS 等业务系统对接。其三是数据侧：上线主动学习与难例挖掘闭环（低置信/高损失样本自动回流），建设数据治理与分布漂移监测仪表盘，完善半自动标注与持续评测基线，逐步扩展到多缺陷多材质场景（锈蚀、裂纹、起皮、异物等）与移动端巡检应用。随着以上迭代，平台将从“可用的实时检测工具”迈向“面向工业化部署的可观测、可运维、可进化”的锈蚀检测中枢。

参考文献（GB/T 7714）

[1] AMPP (NACE). International Measures of Prevention, Application and Economics of Corrosion Technology (IMPACT): Economic Impact[EB/OL]. 2016–2025.
[2] Tang J, et al. Review of surface defect detection of steel products based on machine vision[J]. IET Image Processing, 2023.
[3] Microsoft. Using WebGPU in ONNX Runtime Web[EB/OL]. 2024–2025.
[4] Song K. NEU Surface Defect Database[DB/OL]. Northeastern University, 2013–2025.
[5] Ultralytics. YOLOv5 Documentation[EB/OL]. 2020–2025.
[6] Wang C-Y, Bochkovskiy A, Liao H-Y M. YOLOv7: Trainable bag-of-freebies sets new SOTA for real-time detectors[EB/OL]. arXiv:2207.02696, 2022.
[7] Ultralytics. YOLOv8 Model Docs[EB/OL]. 2023–2025.
[8] Wang C-Y, Yeh I-H, Liao H-Y M. YOLOv9: Programmable Gradient Information[EB/OL]. arXiv:2402.13616, 2024.
[9] Wang A, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024.
[10] Ultralytics. YOLO11 Overview[EB/OL]. 2024–2025.
[11] Tian Y, Ye Q, Doermann D. YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL]. arXiv:2502.12524, 2025.
[12] Xu S, et al. PP-YOLOE: An evolved version of YOLO[EB/OL]. arXiv:2203.16250, 2022.
[13] Ge Z, et al. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. arXiv:2107.08430, 2021.
[14] Carion N, et al. End-to-End Object Detection with Transformers[EB/OL]. arXiv:2005.12872, 2020.
[15] Deng K, et al. RT-DETR: DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2023–2024.
[16] Tian Z, et al. FCOS: Fully Convolutional One-Stage Object Detection[EB/OL]. arXiv:1904.01355, 2019.
[17] Zhou X, et al. Objects as Points (CenterNet)[EB/OL]. arXiv:1904.07850, 2019.
[18] NVIDIA. TensorRT Documentation[EB/OL]. 2024–2025.

posted @ 2026-04-22 14:57 逗逗班学Python 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

deeppython

最新YOLO实现的金属锈蚀实时检测平台（Flask+SocketIO+HTML_CSS_JS）

摘要