最新YOLO实现的障碍物实时检测平台(Flask+SocketIO+HTML_CSS_JS)
摘要
本文面向“障碍物实时检测”应用,构建了基于 Flask + Flask-SocketIO / HTML / CSS / JS 的 Web 网页界面,后端集成 YOLOv5–YOLOv12(共 8 种) 检测器,支持 图片/视频/浏览器摄像头 三类输入与在线推理;前端提供 即时双画面对比(原图/检测结果并行显示)、进度控制(视频与摄像头的暂停/继续/拖拽/停止)、Conf/IoU 调节 与 类别筛选。系统内置 模型选择/权重上传 与热切换,支持 mAP、F1、PR 曲线、训练曲线 等多维指标可视化对比;检测结果可 CSV 导出,并支持 带框结果一键下载(图片/视频),同时将元数据与日志 写入 SQLite 入库 以便检索与追溯。界面提供 登录/注册(可跳过) 的安全会话,口令哈希与一次性跳过提升体验与合规性;还可按任务自定义页面标题与品牌元素并本地保存。我们在标准与自建场景中完成 实时性能评测与多模型横向对比,并给出端到端部署与调参与优化指南;文末提供完整工程与数据集下载链接,便于复现与二次开发。
讲解视频地址:基于深度学习的障碍物检测系统(Web系统+完整项目分享+数据集+多YOLO模型)
YOLOv12-v11/v10/v9/v8/v7/v6/v5系统(八个模型,含说明论文)合集下载:https://mbd.pub/o/bread/YZWck55xZg==
说明论文下载:https://mbd.pub/o/bread/YZWck5tyaQ==
YOLOv12下载:https://mbd.pub/o/bread/YZWbmpppag==
YOLOv11下载:https://mbd.pub/o/bread/YZWbm5lybA==
YOLOv10下载:https://mbd.pub/o/bread/YZWbm5huZw==
YOLOv9下载:https://mbd.pub/o/bread/YZWbmp9uag==
安装与教程文档:https://deeppython.feishu.cn/wiki/Pe12w88RjibgG2kWpyVckkJHnbc
@
1. 网页功能与效果
(1)登录注册:页首与首屏弹层提供“登录”“注册”“一次性跳过”三入口;会话仅在当前浏览器生效并贯穿检测与导出环节;口令哈希与会话校验并行,既保证便捷体验又兼顾安全合规;支持随时注销与切换账号。

(2)功能概况:系统覆盖图片、视频与浏览器摄像头输入,默认提供原图/结果双画面对比与16:9自适应;支持Conf/IoU调节与类别筛选,检测记录可跨页共享;结果可CSV导出与带框图片/视频一键下载,并写入SQLite以便检索与追溯。

(3)视频检测:播放器采用同步双帧展示,提供进度拖动、暂停、继续与停止控制;推理过程展示当前帧FPS与延迟,异常自动回退到关键帧;允许将缓冲流直接导出MP4,并在时间轴上高亮目标事件段以便复核。

(4)更换模型:上传权重即可热切换当前YOLO模型,类别与阈值面板自动刷新;页面标题与品牌元素可编辑并本地保存;路径规范跨平台兼容、数据库自动迁移保证升级不中断;导出结果集中管理,支持按文件名高亮、批量下载与溯源。

(5)概览界面:首页仪表盘聚合最近任务、数据量、平均FPS/延迟与检测命中数,并可一键跳转到图片/视频/摄像头检测;提供最近记录快捷卡片与搜索过滤;内置mAP、F1与训练曲线小组件便于快速对比不同模型与权重版本。

2. 绪论
2.1 研究背景与意义
面向室内外移动机器人、AGV/AMR 与低速无人车的避障场景,实时目标检测需要在毫秒级时延内提供稳定的目标框并确保小目标与边缘目标的高召回,以支撑安全停障与路线重规划,这要求检测模型在“精度—速度—稳定性”三者间达到可工程化的平衡 1。在工程实践中,YOLO 家族凭借端到端的一阶段范式和高效的特征融合,长期占据实时检测主流,形成从轻量到大型的多尺度谱系,覆盖从边缘到云端的部署需求 1。
近年来,无 NMS 的端到端检测器借助集合匹配与查询设计,显著削弱后处理瓶颈,在 COCO 上实现 50%+ AP 与百帧级推理,为安全关键任务的低延迟部署提供了新选项 7。同时,推理加速工具链(如 TensorRT 的算子融合、混精度与 tactic 搜索)以及浏览器侧 ONNX Runtime Web(WebGPU/WASM)降低了端边与 Web 演示门槛,便于在平台中实现“训练—部署—可视化”闭环 14。在可解释性方面,Grad-CAM 等方法可在网页端直观呈现注意区域,辅助定位误检漏检成因与数据缺陷,提升系统可调试性与可信度 13。
2.2 国内外研究现状
从任务需求看,障碍物检测常同时面临小目标密集、遮挡重叠、强反光与剧烈光照变化等挑战,致使检测器对特征尺度、标签分配与阈值策略更为敏感,进而影响 PR 曲线的稳定性 16。在无人机航拍与道路场景中,密集小目标与动态背景常导致误检与漏检上升,研究多通过新增小目标检测层、引入注意力模块与改进上采样/融合算子缓解该问题,并在 VisDrone 等数据集上报告显著 mAP 提升 17。更近的改进工作在交通与无人驾驶数据上针对障碍物类别开展增强与再标注,以进一步提高极端光照与压缩噪声下的鲁棒性 18。
算法范式方面,Anchor-free 与解耦头在工业检测中逐渐普及,FCOS 以逐像素回归消除锚框超参敏感并降低域迁移成本,适配密集小目标;而 Focal Loss 针对前景—背景极不均衡进行重加权,改善一阶段检测训练稳定性 9。同时,EfficientDet 的加权双向特征金字塔(BiFPN)验证了高效多尺度融合对小目标与遮挡的正向作用;两阶段 Faster R-CNN 仍在高质量定位与拥挤场景中具备参考价值,但在毫秒级应用中需要更多工程化裁剪 11。
以 YOLO 系列为代表的实时检测器持续演进:YOLOv9 通过 GELAN 与 PGI 提升参数利用率与梯度信息传递,特别有利于轻中模型在复杂背景下的小目标表现;YOLOv10 提出一致性双重分配并实现 NMS-free 训练,使端到端延迟进一步下降并在各尺度模型上刷新速度—精度界面;新近的 YOLO11 在官方工具链中完善了基准、导出与 Benchmark 模式,为工程选型与部署一致性提供了便利 24。社区公开资料显示,最小规模 YOLO11n 约 2.6M 参数,在 COCO 上可达 ~39.5 的 mAP50–95,并在 T4 上实现毫秒级延迟,适用于高帧率视频流与网页端演示 5。
端到端 Transformer 检测方面,DETR 以集合预测与二部匹配统一检测流程,而 RT-DETR 系列在高效编码器与不确定性最小查询选择的加持下,于 T4 上实现 108 FPS 与 53%+ AP,提供了“高帧率 + 一致性”的现实折中;部署层面,结合 TensorRT 的混精度/量化与 ONNX Runtime Web 的浏览器推理,可在服务器、边缘与浏览器之间灵活切换形态,支持在线 A/B 与人机协同可视化 614。
方法对比表(与本文任务密切相关)
| 方法 | 范式/家族 | 数据集 | 关键改进 | 优势与局限 | 关键指标(原文/官方) | 适用难点 |
|---|---|---|---|---|---|---|
| YOLOv7 | 单阶段/YOLO | COCO | 系统化 bag-of-freebies/specials | 精度—速度权衡优;工程生态成熟;新范式略优 | 56.8% AP@≥30FPS(V100) 1 | 通用实时基线 |
| YOLOv9 (GELAN+PGI) | 单阶段/YOLO | COCO | 提升参数利用率与梯度传递 | 轻中模型友好;配方敏感 | 文献报告优于 DWConv 同类 2 | 资源受限+复杂背景 |
| YOLOv10-S | 单阶段/端到端 | COCO | 一致性双分配,NMS-free | 端到端延迟低;小目标需配合数据策略 | 同精度下较 RT-DETR-R18 快 1.8× 3 | 高速视频避障 |
| YOLO11n | 单阶段/YOLO | COCO | 轻量骨干与训练配方更新 | 体量小、延迟低;部分任务上限受限 | 39.5 mAP50–95,T4≈1.55 ms,2.6M 参数 5 | 网页演示/移动端试用 |
| RT-DETR-R50 | 端到端/DETR | COCO | 高效混合编码器、UMQ | 无 NMS;速度—精度可调 | 53.1% AP,108 FPS(T4) 7 | 低延迟一致性输出 |
| PP-YOLOE-l | 单阶段/Anchor-free | COCO | CSPRepRes、ET-Head、TAL | 工业友好、高 FPS;工具链全 | 51.4 AP(test-dev),TRT FP16 149.2 FPS 8 | 长时视频、流水线 |
注:表中指标均引自对应论文或官方文档页面,可由所引链接复核。
2.3 要解决的问题及其方案
(1)准确性与实时性的平衡:在强反光、遮挡与尺度跨越下保持小目标高召回,同时将端到端延迟控制在视频帧周期内,避免控制链路“过时帧”介入 3。
(2)环境适应性与泛化:不同相机参数、压缩噪声与光照变化下维持稳定 PR 曲线,降低域偏移导致的阈值漂移 17。
(3)网页端交互与可解释可视:统一图片/视频/摄像头三源输入的“原图—结果”双画面与同步双帧播放,提供阈值/类别筛选及热力可视以支撑复核与调参 13。
(4)数据处理与存储安全:多用户会话隔离、检测记录与导出一致性、轻量数据库可追溯,满足工程闭环与审计要求。
对应方案如下:
(1)以 YOLOv12/YOLOv10/YOLO11/YOLOv9 构成对比谱系,默认采用 YOLOv12/YOLOv10 作为核心实时基线,引入小目标强化、数据增广与迁移学习,配合一致性分配与合理 IoU 度量以稳态提升精度与时延表现 24。
(2)后端基于 PyTorch + TensorRT/ONNX 导出与加速,GPU 场景启用 FP16/INT8 与 tactic 优选,浏览器端选择 ONNX Runtime Web (WebGPU/WASM) 以支持轻量演示与离线评测 14。
(3)前端以 Flask + Flask-SocketIO + HTML/CSS/JS 实现图片/视频/摄像头统一入口、原图—结果双画面对比、同步双帧播放与进度控制,并集成 Grad-CAM 结果叠加提高可解释性 13。
(4)提供 CSV 导出、带框图/视频一键下载、SQLite 入库 与会话安全机制,形成“训练—评测—部署—回流”的数据闭环,便于审计与复现。
2.4 博文贡献与组织结构
贡献:
(1)综合综述:系统梳理 YOLO/DETR 等主流实时检测在障碍物场景的适配策略与部署趋势,给出工程化可复现要点 17。
(2)模型选择与优化:在 YOLOv5–YOLOv12 八种模型上统一训练/评测配方,报告 mAP、F1、延迟与参数量的对比,并讨论与任务难点的耦合机理 24。
(3)美观完整的 Web 端实现:提供登录/注册可跳过、双画面对比、同步双帧、阈值调节、CSV/带框下载与 SQLite 追溯的端到端体验。
(4)落地与可解释:引入 TensorRT/ONNX 加速与 Grad-CAM 可视,面向边缘与浏览器双形态的实时演示与复核 1315。
组织结构:全文先述网页功能与体验设计,然后给出数据集处理;随后以 YOLOv12 为主线阐述模型原理与设计,并在实验部分进行多模型横向对比与误差分析;系统设计与实现章节给出分层架构与流程图;最后总结与展望未来工作(轻量化、量化/蒸馏、多模态与 WebRTC/多租户等)。
3. 数据集处理
为便于复现与审计,本节基于提供的样例可视化(标注分布角图与多张标注/检测拼图)、总量与划分信息(共 9172 张,其中训练集 7844、验证集 865、测试集 463)以及中英类别对照(10 类:自行车、公共汽车、汽车、狗、电线杆、摩托车、人、交通标志、树、井盖未盖)进行描述;标注采用 YOLO 格式的归一化 \((x,y,w,h)\)(从直方图与散点分布可见四维皆在 \([0,1]\) 区间),训练/验证/测试比例约为 85.5% / 9.4% / 5.0%,固定随机种子 42 并保证同一视频/场景片段不跨集合泄漏;类别英文名用于模型训练与文件组织,中文名服务于网页端界面与导出报告的可读性。数据覆盖室内外道路、园区与居民区等多种场景,含单体与多目标、静态与运动目标以及不同成像纵横比,示例图像显示标注边界与文件命名规范一致,便于后续批处理与 SQLite 入库。
Chinese_name = {
"Bicycle": "自行车",
"Bus": "公共汽车",
"Car": "汽车",
"Dog": "狗",
"Electric pole": "电线杆",
"Motorcycle": "摩托车",
"Person": "人",
"Traffic signs": "交通标志",
"Tree": "树",
"Uncovered manhole": "井盖未盖"
}

从统计学特征看,\(x,y\) 在 0.5 附近呈集中,存在一定“中心偏置”;\(w,h\) 的直方图在 0.05–0.25 区间出现峰值,结合拼图可见“小而密”的交通标志、电线杆、行人等与“中大尺寸”的公共汽车、树木并存,小目标占比不低且场景中存在遮挡与反光,这与实时障碍物检测的难点一致。类别分布呈非均衡趋势(样例中 Bus/Car 明显多样,井盖未盖相对稀疏),建议在训练阶段引入类别重采样或损失重加权以缓解长尾;同时,拼图中可见不同比例与边框贴边样例,提示在预处理阶段需要稳健的 letterbox 策略与框截断修正,避免尺度与纵横比漂移带来的召回下降。

预处理与增强方面,采用 自动 letterbox 到训练尺度(如 640 或 1280 的方形短边对齐)、随机仿射与透视以覆盖拍摄角度与视差,HSV/亮度对比度抖动与 CLAHE/直方图均衡以提升逆光与阴影鲁棒性,Mosaic(4 图拼接)+ MixUp 提升小目标可见性并模拟拥挤场景,Copy-Paste 定向加强“电线杆/交通标志/井盖未盖”等稀疏类,随机模糊与 JPEG 压缩噪声对齐实际视频码流,框抖动、标签平滑与 IoU 裁剪保证正负样本稳定;数据清洗包括去重相似帧、矫正越界与零面积框、统一类名大小写并用脚本校验与可视抽检。上述策略与统计特征一一对应:Mosaic/重加权缓解长尾与小目标问题,色彩/压缩扰动面向强光与码流退化,透视与仿射覆盖俯仰与侧向位姿变化,letterbox 与框修正确保多纵横比下的定位稳定;最终以 YAML/CSV 记录类目映射与划分清单,确保网页端“按类别筛选—CSV 导出—SQLite 入库”的一致性与可追溯。
4. 模型原理与设计
本系统以 YOLOv12 为主线构建实时障碍物检测器,遵循“骨干—多尺度颈部—解耦检测头”的单阶段范式。输入图像(含图片、视频帧与浏览器摄像头)经归一化与 letterbox 进入骨干提取层级特征,颈部进行双向多尺度融合,检测头在多尺度特征图上分别输出类别概率与边界框参数。默认采用 Anchor-free 与解耦头设计,使分类与回归梯度彼此解耦,并以分布式边界回归(DFL)或连续参数化回归表达边框,从而在“中心偏置、长尾分布、小而密”的数据特性下获得更稳定的收敛与更低的超参敏感性。推理阶段若采用 NMS-free 训练,可直接输出一致性排序的候选;在需要更强遮挡鲁棒性时,则启用 IoU-aware 的 NMS 来抑制重叠框并提升时间一致性。
在结构层面,骨干以轻量残差与跨层聚合单元兼顾感受野与参数效率,颈部采用加权的双向特征金字塔对不同分辨率特征进行可学习融合,其核心计算可表示为
其中 (F_i) 为各层特征,(\mathcal{R}_i(\cdot)) 表示必要的上/下采样与对齐操作,(w_i) 为可学习融合权重。检测头使用解耦卷积分支:分类分支输出每类概率向量,回归分支输出边界框参数或四边距离分布;必要时在高反光与纹理干扰明显的场景引入轻量注意力(如 ECA/CBAM)以增强判别性。网络整体架构图如下图所示:

在损失与任务建模上,边界框采用 IoU 家族目标函数对齐定位质量与排序一致性。基本 IoU 为
进一步使用 CIoU 在重叠度之外惩罚中心偏移与长宽比差异:
其中 (\mathbf{b},\mathbf{b}^) 为预测与真实框中心,(c) 为最小外接框对角线,(w,h) 与 (w*,h) 分别为预测与真实宽高。若采用 DFL,回归为每边距离的离散分布学习,损失为
其中 (p_d) 为预测概率,(q_d) 为由真实距离线性插值得到的软标签;分类分支使用带标签平滑的 BCE:
综合损失写为
其中 (\mathcal{L}*{\mathrm{obj}}) 约束密集场景中的目标存在性;在本文数据上,适度提高小目标尺度输出层的权重可改善“井盖未盖、交通标志、电线杆”等稀疏类的召回。
训练与正则化方面,采用带热身与余弦退火的学习率策略
其中 (t) 为当前步,(T) 为总步数;并配合 EMA 参数滑动平均稳定验证曲线。中后期逐步减弱 Mosaic/MixUp 等强增强以贴近真实分布,权重导出支持 PyTorch→ONNX/TensorRT 以及 ONNX Runtime Web 两种形态,保证同一模型在服务器、边缘与浏览器端的一致推理与毫秒级响应;在 Flask-SocketIO 推流中保持置信度与 IoU 阈值的会话一致性,以获得更平滑的在线视频检测体验。
5. 实验结果与分析
本节基于提供的完整评测日志与可视化(混淆矩阵、F1–Confidence、训练曲线、平均 PR 曲线,以及两组“双条形图”),在 RTX 3070 Laptop 8 GB 环境下对 YOLOv5–YOLOv12 的 n/s 两档模型进行对比。评估指标包含 Precision、Recall、F1、mAP@0.5、mAP@0.5:0.95,并记录预处理/推理/后处理耗时;总时延以三者求和衡量实时性。整体上,n 档模型的 mAP@0.5 集中在 0.696–0.747,s 档在 0.736–0.756,训练 120 个 epoch 后均趋于稳定。

综合对比表(3070 Laptop 上的精度与时延)
| 模型 | Params(M) | FLOPs(G) | Pre(ms) | Inf(ms) | Post(ms) | 总时延(ms) | Precision | Recall | F1 | mAP50 | mAP50–95 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| YOLOv5nu | 2.6 | 7.7 | 1.90 | 7.73 | 1.31 | 10.94 | 0.748 | 0.717 | 0.732 | 0.734 | 0.600 |
| YOLOv6n | 4.3 | 11.1 | 2.17 | 6.78 | 1.39 | 10.34 | 0.751 | 0.710 | 0.730 | 0.731 | 0.602 |
| YOLOv7-tiny | 6.2 | 13.8 | 2.28 | 14.74 | 4.06 | 21.08 | 0.741 | 0.689 | 0.714 | 0.696 | 0.550 |
| YOLOv8n | 3.2 | 8.7 | 1.95 | 6.83 | 1.39 | 10.17 | 0.731 | 0.732 | 0.732 | 0.735 | 0.605 |
| YOLOv9t | 2.0 | 7.7 | 1.87 | 16.51 | 1.29 | 19.67 | 0.739 | 0.740 | 0.740 | 0.747 | 0.628 |
| YOLOv10n | 2.3 | 6.7 | 2.08 | 11.24 | 0.63 | 13.95 | 0.787 | 0.682 | 0.731 | 0.731 | 0.605 |
| YOLOv11n | 2.6 | 6.5 | 2.11 | 9.44 | 1.42 | 12.97 | 0.783 | 0.708 | 0.743 | 0.737 | 0.617 |
| YOLOv12n | 2.6 | 6.5 | 1.91 | 12.47 | 1.37 | 15.75 | 0.744 | 0.735 | 0.739 | 0.740 | 0.619 |
| YOLOv5su | 9.1 | 24.0 | 2.28 | 8.45 | 1.51 | 12.24 | 0.769 | 0.724 | 0.746 | 0.748 | 0.623 |
| YOLOv6s | 17.2 | 44.2 | 2.22 | 8.59 | 1.45 | 12.26 | 0.732 | 0.731 | 0.731 | 0.736 | 0.616 |
| YOLOv8s | 11.2 | 28.6 | 2.31 | 7.66 | 1.42 | 11.39 | 0.726 | 0.735 | 0.730 | 0.742 | 0.626 |
| YOLOv9s | 7.2 | 26.7 | 2.12 | 18.66 | 1.39 | 22.17 | 0.762 | 0.740 | 0.750 | 0.756 | 0.650 |
| YOLOv10s | 7.2 | 21.6 | 2.21 | 11.38 | 0.60 | 14.19 | 0.781 | 0.723 | 0.751 | 0.749 | 0.640 |
| YOLOv11s | 9.4 | 21.5 | 2.37 | 9.74 | 1.36 | 13.47 | 0.763 | 0.732 | 0.747 | 0.747 | 0.633 |
| YOLOv12s | 9.3 | 21.4 | 2.09 | 13.23 | 1.42 | 16.74 | 0.772 | 0.706 | 0.738 | 0.744 | 0.629 |
整体趋势与速度—精度权衡:双条形图显示 n 档整体 F1≈0.73、mAP@0.5≈0.73–0.75;s 档在容量增大后 mAP 与 F1 均有小幅提升(曲线对比亦可见 0–20 epoch 阶段的抖动随后快速收敛)。
若以总时延衡量实时性,YOLOv8n(10.17 ms)和YOLOv6n(10.34 ms)最快;若以精度优先,YOLOv9t(n)和YOLOv9s(s)在 mAP@0.5 与 mAP@0.5:0.95 上领先,但推理耗时明显更高。

YOLOv10n/s在后处理耗时(0.63/0.60 ms)最小,体现出 NMS-free/轻 NMS 设计对端到端时延的优势,适合注重一致性与低抖动的视频输出。
图 5-1 双条形图(n 系):F1 与 mAP50 对比
图注:八种 n 体量模型的 F1 与 mAP50。配色为学术蓝(F1)与琥珀色(mAP50),便于与表 5-1 对照。

图 5-2 双条形图(s 系):F1 与 mAP50 对比
图注:八种 s 体量模型的 F1 与 mAP50。可以看到 v8s 的 F1 优势与 v12s 的 mAP 优势并存,提示“召回—精度”取舍的不同偏好。

类别层面的误差与可解释观察:混淆矩阵与分类别 PR 曲线显示,“电线杆”召回最低(mAP@0.5≈0.32),容易被判为背景;“交通标志”“Person”次之(mAP@0.5≈0.58/0.61),主要误差来自远距小目标与遮挡;“Bus、Dog、Bicycle、Uncovered manhole”表现稳健(mAP@0.5≈0.88–0.96/0.82)。这与第 3 章数据统计一致:细长/高纵横比的小目标在 0.05–0.25 的 \(w,h\) 区间占比高,更易受缩放与压缩噪声影响。

F1–Confidence 曲线的全类最优点在 0.47 左右(粗蓝线峰值 ≈0.73),说明网页端默认 Conf≈0.48 能取得较稳定的综合 F1;在“电线杆/交通标志”主导的场景,为提升召回可将阈值下调到 0.40–0.45,并搭配 NMS IoU=0.55–0.60 抑制重叠误检。

视频与网页实战建议:
其一,若追求极低端到端延迟的在线摄像头推理与“同步双帧”展示,推荐 YOLOv8n 作为默认模型;该模型在不牺牲太多精度的情况下提供最短总时延,适合 30–60 FPS 推流。其二,若精度优先(离线批处理或服务器推流),优先选择 YOLOv9s(或 n 档的 YOLOv9t),并结合较高的 Conf(0.50–0.55)以减少长尾类的误报。其三,若需一致性和平滑输出(减少帧间抖动与框跳变),YOLOv10n/s 的后处理优势明显,可与网页端的“时间窗口平滑/指数滑动平均”联动;对“井盖未盖”等关键类,可适度提高小目标输出层的损失权重与可视化高亮。其四,针对“电线杆/交通标志”薄弱项,建议在数据层增加定向 Copy–Paste、窄条形随机裁剪与高分辨率多尺度训练,并在评估端启用 TTA(多尺度+水平翻转) 做上线前验收。

与任务难点的耦合解读:
1)反光与动态背景:PR 曲线尾段的 Precision 快速下滑表明高置信度误报集中在玻璃反射与远距微小目标;通过网页端 IoU/Conf 可调+类别筛选 能迅速定位并回放问题片段。
2)长尾与贴边目标:混淆矩阵底行背景占比高,提示部分小目标漏检;在训练中提高贴边样本比例、采用 DFL+CIoU 与 TAL/对齐分配 可缓解。
3)实时一致性:训练曲线显示各模型在 60–80 epoch 进入平台期;上线时建议固定 EMA 权重导出,推流端启用 会话级阈值锁定,避免跨视频的阈值漂移造成体验不一致。
6. 系统设计与实现
6.1 系统设计思路
系统采用分层架构以支撑“多源输入—实时推理—可视交互—可追溯导出”的完整闭环:表现与交互层由浏览器端 HTML/CSS/JS 组成,通过 Flask-SocketIO 建立双向通道,统一承载图片、视频与浏览器摄像头三类输入;业务与会话管理层负责登录/注册/跳过的认证状态、参数同步(Conf/IoU/类别筛选)与任务路由;推理与任务调度层维护解码器、同步双帧缓冲(原始帧/预测帧)与 YOLO 推理引擎;数据持久化层以 SQLite 存储检测记录、导出清单、账户与审计日志,保证跨会话一致性与可追溯。
实时性通过三点保障:其一,同步双帧通道对同一时间戳的原始帧与推理结果进行成对推送,避免前端播放抖动;其二,参数与模型权重采用会话级热切换策略,任何阈值修改与模型替换都会在消息队列内广播并原子生效;其三,后处理根据部署形态选择 NMS-free 或 IoU-aware NMS,并以批次化编码与零拷贝共享内存减少序列化开销。一致性方面,所有导出(CSV、带框图片/视频)与统计(PR/F1、训练曲线快照)均绑定任务与账户上下文,确保溯源与审计。
可扩展性体现在模块边界清晰与接口标准化:推理引擎支持 PyTorch/ONNX/TensorRT 三形态无缝切换;权重管理组件维护多模型版本及类别元数据,切换后自动刷新前端筛选项;导出中心统一管理批量下载与命名规范;监控接口收集吞吐、延迟与异常事件,供后续接入告警与看板。检测算法与评测逻辑保持不变,仅将界面与交互层替换为 Web 形态以便在线演示与多端复用。
图 6-1 系统流程图

图注:自系统初始化到多源输入接入,完成预处理、YOLO 推理与后处理/统计,并经 Socket 通道驱动前端双画面联动;可在任意节点触发导出与入库。
图 6-2 系统设计框图

图注:分层架构展示模块边界与数据流向;模型权重管理与监控接口独立于推理主链,便于升级与观测。
6.2 登录与账户管理
图 6-3 登录与账户管理流程

图注:从进入登录界面到注册/登录、加载个性化配置与历史记录,再到主界面与资料修改、注销/切换账号;流程与主检测闭环解耦但共享会话与权限。
登录与账户管理说明
系统在用户进入登录界面时首先判断是否已有账号;若无账号,完成注册信息校验后将口令哈希与最小资料写入数据库并进入登录;登录成功后创建受限会话并加载个性化配置(页面标题/品牌、默认模型、Conf/IoU 等)与历史记录(最近任务与导出清单),随后进入主界面。会话贯穿检测与导出流程,前端参数修改通过业务层广播至推理与后处理模块;用户可在资料页修改头像与密码,或随时注销与切换账号。该流程将认证与个性化与主检测闭环有效衔接,既保证操作便捷,又保障结果与设置的持久化与审计可追溯。
代码下载链接
如果您希望获取博客中提及的完整资源包,包含测试图片、视频、Python文件(*.py)、网页配置文件、训练数据集、代码及界面设计等,可访问博主在面包多平台的上传内容。相关的博客和视频资料提供了所有必要文件的下载链接,以便一键运行。完整资源的预览如下图所示:


资源包中涵盖了你需要的训练测试数据集、训练测试代码、UI界面代码等完整资源,完整项目文件的下载链接可在Gitee项目中找到➷➷➷
完整项目下载、论文word范文下载与安装文档:https://deeppython.feishu.cn/wiki/Pe12w88RjibgG2kWpyVckkJHnbc
讲解视频地址:https://www.bilibili.com/video/BV1HHQwBqEBy/
完整安装运行教程:
这个项目的运行需要用到Anaconda和Pycharm两个软件,下载到资源代码后,您可以按照以下链接提供的详细安装教程操作即可运行成功,如仍有运行问题可私信博主解决:
- Pycharm和Anaconda的安装教程:https://deepcode.blog.csdn.net/article/details/136639378;
软件安装好后需要为本项目新建Python环境、安装依赖库,并在Pycharm中设置环境,这几步采用下面的教程可选在线安装(pip install直接在线下载包):
- Python环境配置教程:https://deepcode.blog.csdn.net/article/details/136639396;
7. 结论与未来工作
本文围绕“障碍物实时检测”的工程落地,构建了基于 Flask + Flask-SocketIO 的 Web 平台,前端以 HTML/CSS/JS 提供原图—结果双画面对比、同步双帧播放、阈值与类别筛选、CSV 导出与带框结果一键下载,后台集成 YOLOv5–YOLOv12 八类模型与权重热切换,并将全流程元数据写入 SQLite 实现可追溯与审计;在 RTX 3070 Laptop 8 GB 环境下,轻量模型在 10–15 ms 级总时延内取得约 0.73–0.75 的 mAP@0.5 与 0.73 左右的 F1,满足 30–60 FPS 的实时推理需求,难类如“电线杆/交通标志”通过阈值重设与小目标加权亦能获得可用召回;整体系统在浏览器摄像头、视频与图像三种输入形态下表现稳定,具备良好的可复现性与二次开发友好度,并可平移到机械器件外观缺陷检测、物流分拣安全监测等相近场景。
未来工作将从三条主线推进:其一是模型侧的持续优化,包括蒸馏、剪枝与 INT8/FP8 量化以进一步降低时延与显存占用,探索 NMS-free 与端到端 Transformer/RT-DETR 变体、时序一致性学习与轻量多目标跟踪(如字典级轨迹平滑)来减小视频抖动,并在多模态方向融合深度/激光雷达或事件相机以增强夜间与逆光鲁棒性;其二是系统侧的工程演进,落地 Docker/Kubernetes 与分布式任务队列实现弹性扩缩容,接入 WebRTC 做亚秒级推流与端到端加密、完善角色权限与审计日志、开放 gRPC/REST 推理接口与模型注册中心,建设可观测性(时延/吞吐/错误率)与灰度 A/B 能力;其三是数据与运维侧的闭环强化,采用主动学习与半监督自训练降低标注成本,结合数据治理与漂移监测、数据版本化与质量评估仪表板(含长尾告警与类间混淆跟踪),在持续迭代中自动生成评测报告与可下载可视化资产。随着这些增强落地,平台将进一步扩展到跨场景、多传感器与多租户的工业级部署形态,在保证实时性的同时提供更强的可靠性与可解释性。
参考文献(GB/T 7714)
1 Wang C-Y, Bochkovskiy A, Liao H-Y M. YOLOv7: Trainable bag-of-freebies sets new SOTA for real-time object detectors[EB/OL]. 2022. (arXiv)
2 Wang C-Y, Yeh I-H, Liao H-Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[EB/OL]. 2024. (arXiv)
3 Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[C]//NeurIPS, 2024. (NeurIPS Proceedings)
4 Ultralytics. YOLO11 模型总览与文档[EB/OL]. 2024–2025. (Ultralytics Docs)
5 Replicate. ultralytics/yolo11n model card: 2.6M params, 39.5 mAP, ~1.55ms(T4)[EB/OL]. 2025. (Replicate)
6 Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]//ECCV, 2020. (arXiv)
7 Zhao Y, Lv W, Xu S, et al. DETRs Beat YOLOs on Real-time Object Detection[C]//CVPR, 2024. (CVF Open Access)
8 Xu S, Wang X, Lv W, et al. PP-YOLOE: An evolved version of YOLO[EB/OL]. 2022. (arXiv)
9 Tian Z, Shen C, Chen H, He T. FCOS: Fully Convolutional One-Stage Object Detection[C]//ICCV, 2019. (CVF Open Access)
10 Lin T-Y, Goyal P, Girshick R, He K, Dollár P. Focal Loss for Dense Object Detection[C]//ICCV, 2017. (arXiv)
11 Tan M, Pang R, Le Q V. EfficientDet: Scalable and Efficient Object Detection[C]//CVPR, 2020. (CVF Open Access)
12 Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards Real-Time Object Detection with RPN[EB/OL]. 2015. (arXiv)
13 Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization[C]//ICCV, 2017. (CVF Open Access)
14 NVIDIA. TensorRT Documentation: Performance & trtexec Guides[EB/OL]. 2024–2025. (NVIDIA Docs)
15 Microsoft. ONNX Runtime Web: WebGPU/WASM 浏览器侧推理指南与发布博客[EB/OL]. 2024–2025. (Microsoft Open Source)
16 李文海, 李超荣, 黄莹飞, 等. 基于ROS与YOLOv5s的智能车障碍物检测导航系统的设计[J]. 成都信息工程大学学报, 2023. (Cuit)
17 陈范凯, 李士心. 改进Yolov5的无人机目标检测算法[J]. 计算机工程与应用, 2023, 59(18):218-225. (CEA)
18 王思雨, 等. 基于YOLOv5的障碍物图像检测算法研究[J]. 林业大学学报, 2025. (Wanfang Data)

浙公网安备 33010602011771号