摘要

本文面向“智能监考/考试异常行为检测”场景，构建基于 Flask + Flask-SocketIO + HTML/CSS/JS 的实时目标检测平台，支持 YOLOv5–YOLOv12（共 8 种）一键切换，覆盖手机/纸条/可疑姿态/多人聚集等检测子任务；系统提供 Web 网页界面实时演示，支持 图片/视频/浏览器摄像头 输入，内置 左右等宽双画面对比、视频 进度控制（暂停/继续/停止/拖拽）、在线 Conf/IoU 调节、类别筛选、结果 CSV 导出 与 带框结果一键下载（图片/视频/MP4 缓冲导出）。平台含 登录/注册（可跳过） 与会话管理、SQLite 入库 与统计检索、最近记录高亮与一键回放；支持 模型选择/权重上传、类别标签自动刷新与跨平台路径规范；训练评测端集成 mAP、F1、PR 曲线、训练/验证曲线、混淆矩阵 等指标对比，并提供 yolov5n、yolov6n、yolov7-tiny、yolov8n、yolov9t、yolov10n、yolo11n、yolo12n 的统一评测报告。系统强调轻量化部署与实时性（ONNX/TensorRT 可扩展）、数据与结果可追溯（CSV/数据库/日志），适配机房/居家远程考试等多环境。文末提供完整工程与数据集下载链接，便于读者按需复现实验与二次开发。

讲解视频地址：基于深度学习的智能监考系统（Web系统+完整项目分享+数据集+多YOLO模型）
YOLOv12-v11/v10/v9/v8/v7/v6/v5系统（八个模型，含说明论文）合集下载：https://mbd.pub/o/bread/YZWck55raw==
说明论文下载：https://mbd.pub/o/bread/YZWck5tvbA==
YOLOv12下载：https://mbd.pub/o/bread/YZWbmphtbA==
YOLOv11下载：https://mbd.pub/o/bread/YZWbm5lvaw==
YOLOv10下载：https://mbd.pub/o/bread/YZWbm5hraQ==
YOLOv9下载：https://mbd.pub/o/bread/YZWbmp9qZQ==
安装与教程文档：https://deeppython.feishu.cn/wiki/WlKEwonqDib2IjkTp3rcj5sRnAc

摘要
1. 网页功能与效果
2. 绪论
3. 数据集处理
4. 模型原理与设计
5. 实验结果与分析
6. 系统设计与实现
- 6.1 系统设计思路
- 6.2 登录与账户管理
代码下载链接
7. 结论与未来工作
参考文献（GB/T 7714）

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 网页功能与效果

（1）登录注册：提供登录、注册与一次性跳过三种入口，会话在当前浏览器生效并贯穿后续页面；支持口令哈希与基础会话校验，兼顾安全与便捷。进入后自动加载个性化配置与最近记录，高亮可疑样本并可一键定位到对应 CSV。
在这里插入图片描述
（2）功能概况：首页以卡片化方式汇总图片/视频/摄像头三类检测、最近任务与导出入口，展示系统状态与资源占用的轻量统计。用户可从概况页直达检测、模型管理与结果归档，减少跨页操作并保持参数一致性。
在这里插入图片描述

（3）视频检测：采用左右等宽的同步双帧对比，16:9 自适应呈现原始帧与检测结果，提供进度、暂停、继续、停止与拖拽控制。支持在线调节 Conf/IoU、按类别筛选、CSV 导出与带框 MP4 一键下载，底部“检测记录”跨页共享便于复核。
在这里插入图片描述

（4）更换模型：上传权重即可切换当前模型，类别与配色自动刷新并记录至会话与数据库，适配 YOLOv5–YOLOv12 的统一接口。支持批注说明与版本标识，便于回滚与溯源，路径与命名规范跨平台兼容。
在这里插入图片描述

（5）概览界面：提供最近任务时间线、告警摘要与Top-K 类别分布的小型图表，并支持按文件名或标签快速筛选。页面标题与品牌元素可编辑并本地保存，导出结果集中管理，支持批量下载与按文件名高亮，提升审阅效率。
在这里插入图片描述

2. 绪论

2.1 研究背景与意义

智能监考作为教育评测与诚信治理的重要一环，要求系统在复杂环境下以低延迟、可解释的方式识别手机、纸条、可疑肢体与多人聚集等异常事件，同时兼顾浏览器端一致体验与可追溯审计链路，从而服务机房与远程考试双场景1。实时目标检测在近年形成以 YOLO 家族为代表的工程体系，其速度–精度折中与部署友好特性，使其天然适配摄像头与多路视频的在线推理需求2。与此同时，端到端检测与注意力机制的引入，为遮挡、长程依赖与密集小目标场景带来新的鲁棒性与可扩展性路径，为智能监考场景的稳定性与可维护性提供了方法储备3。

2.2 国内外研究现状

从任务需求看，监考场景面临类间相似度高（如笔与纸条）、目标尺寸差异大、密集遮挡与强反射、跨设备域偏移与长尾分布等难点，单阶段检测的解耦头、标签分配与多尺度金字塔设计在实践中被反复验证，成为实时检测的主流方案4。YOLO 系列从 v3、v4 的工程与训练策略演进到 v8 的 Anchor-free 解耦头与更简洁的推理链路，进一步降低了在线应用复杂度5。与此同时，YOLOX、YOLOv7 以解耦头与训练技巧提升小目标与密集场景表现，适合多源流实时监管6。在更前沿的演进中，YOLOv9 提出可编程梯度信息（PGI）与 GELAN 结构，v10 引入一致双重分配实现 NMS-free 端到端优化，v11 在工程生态与速度–精度曲线继续迭代，v12 则探索注意力友好的实时化设计，这些方向共同推动了“端到端+低延迟”的新范式8 10。另一方面，DETR/RT-DETR 等端到端 Transformer 检测器用集合预测避免 NMS，对遮挡与长程依赖场景有优势，但需要在训练与算力成本上做权衡3。

为便于读者把握方法脉络，表2-1 汇总代表性检测器的范式、关键技术与适配场景，并以原始论文或官方报告为可追溯来源。需要说明的是，具体数值因实验设定而异，本文在第5章给出统一脚本下的复现实验。

表2-1 代表性目标检测方法与适配性对比（选摘）

方法	范式/家族	数据集	关键改进	优势与局限	指标要点	适用难点
Faster R-CNN	两阶段/Anchor-based	COCO/VOC	RPN+分类回归解耦	精度高、延迟相对大	原文报告 mAP	遮挡复杂、需高精度复核13
SSD	单阶段/Anchor-based	COCO/VOC	多尺度特征图密集预测	速度快、小目标相对弱	原文报告 mAP/FPS	多尺度实时预览14
RetinaNet	单阶段/Anchor-based	COCO	Focal Loss 缓解前景–背景不均衡	实现简洁、召回提升	原文报告 AP	长尾与稀疏告警15
YOLOv8	单阶段/Anchor-free	COCO/自定义	解耦头与简化推理	工程友好、部署便捷	官方文档要点	浏览器摄像头5
YOLOX	单阶段/Anchor-free	COCO	解耦头+SimOTA 标签分配	小目标/密集场景更稳	原文报告 AP/FPS	遮挡与姿态多样6
YOLOv7	单阶段/YOLO	COCO	训练技巧与架构优化	性能–速度折中佳	原文报告 AP50–95	多路视频流7
PP-YOLOE	单阶段/YOLO系	COCO	TAL+ET-Head+工程优化	高速高精、部署友好	文献报告 AP/FPS	工程化批处理16
FCOS	单阶段/Anchor-free	COCO	每像素密集预测	无锚框、超参更少	原文报告 AP	小目标/长尾17
CenterNet	单阶段/Anchor-free	COCO	关键点中心表示	简洁、高速	原文报告 AP/FPS	姿态/关键点相关18
DETR	端到端/Transformer	COCO	匹配式集合预测	全局建模、早期收敛慢	原文报告 AP	遮挡/长依赖19
Deformable DETR	端到端/Transformer	COCO	稀疏多尺度注意力	精度与收敛改进	原文报告 AP	大分辨率视频20
RT-DETR	端到端/Transformer	COCO	实时端到端设计	低延迟、无 NMS	原文报告 AP/FPS	在线监管12
YOLOv9	单阶段/YOLO	COCO	PGI+GELAN	训练与结构协同	ECCV 报告 AP	在线场景泛化8
YOLOv10	单阶段/端到端	COCO	一致双分配、NMS-free	同精度更低延迟	原文报告对比	实时端到端9
YOLO11	单阶段/YOLO	COCO/自定义	工程生态与精度迭代	速度–精度权衡优化	官方说明	通用应用10
YOLOv12	单阶段/注意力友好	COCO	注意力中心化实时框架	准确性与速度兼顾	论文摘要要点	大场景与遮挡11

在国内外综述方面，中文学术界已系统梳理 YOLO 家族与改进脉络并给出应用趋势，为教育监测等垂直场景提供了参考；该类综述强调注意力机制、边缘计算与浏览器端可视化的结合方向，与本文工程取向一致4。损失函数方面，GIoU/DIoU/CIoU 等定位损失改善边界框回归的稳定性与收敛性，适合强反光与姿态快速变化等监考难点；部署侧的量化、剪枝与 TensorRT/ONNX 推理优化为低算力端提供了切实可行的延迟与吞吐改进路径[21][22][23][24]。

2.3 要解决的问题及其方案

（1）准确性与实时性：在 720p/1080p、不同帧率与多路并发下稳定维持 mAP 与低端到端时延，优先采用解耦头、多尺度融合与 NMS-free 端到端训练以降低后处理瓶颈9。（2）环境适应与跨设备泛化：面向光照突变、镜面反射、遮挡与长尾分布，通过数据增强、迁移学习与一致性训练提升鲁棒性，并结合 GIoU/CIoU 提升定位质量[21][22]。（3）交互一致与可追溯：在 Web 端实现同步双帧、参数（Conf/IoU/类别）一致推送、CSV/带框结果一键导出与数据库归档，保障审计与复核链路5。（4）性能与部署工程：通过 INT8 量化、剪枝与 TensorRT/ONNX Runtime 推理加速，辅以批处理与流式缓冲，确保边缘节点与通用服务器的稳定吞吐[23][24]。

2.4 博文贡献与组织结构

（1）综合文献综述：以监考场景为牵引，对 YOLOv5–YOLOv12、YOLOX、YOLOv7、RT-DETR 等方法进行针对性评述与对比，明确实时、端到端与部署友好性的技术演进脉络6 9。（2）模型选择与优化：采用 YOLOv12 为核心，提供 YOLOv5–YOLOv12 统一评测接口与权重热切换，并在损失与训练调度上对小目标与遮挡进行定向优化11。（3）美观友好的网页设计：基于 Flask+SocketIO 与 HTML/CSS/JS 构建图片/视频/摄像头统一交互，支持双画面对比、进度与阈值控制、类别筛选与一键导出，保证参数与结果的一致性与可追溯5。（4）算法效果对比：统一输出 mAP、F1、PR 曲线与训练曲线，并在第5章给出可复现实验与图表；（5）完整资源：文末提供工程与数据集下载，支持二次开发与教学落地。本文余下章节组织为：第3章数据集处理，第4章模型原理与设计，第5章实验结果与分析，第6章系统设计与实现，第7章结论与展望2。

3. 数据集处理

本研究使用的“智能监考”数据集共 2,754 张图像，其中训练集 2,083 张、验证集 457 张、测试集 214 张；类别为 cheating / good / normal，中文映射分别为“疑似作弊/良好/正常”。标注采用 YOLO 文本格式（每行 class x y w h，坐标与宽高均归一化至 [0,1]），从你提供的标签分析图可见：类别柱状图呈明显不均衡，cheating 样本显著多于另外两类；x-y 热力分布集中于画面中心，w-h 分布以小到中等尺度框为主，说明监考场景下目标多位于画面中部且以小目标为主。为确保结果可复现，数据划分固定随机种子为 42；标注检查包含类别一致性校验、异常框筛除（过小/越界）与重复图去重（感知哈希），同时保留原图与标注的版本号以便审计追溯。

Chinese_name = {"cheating": "疑似作弊", "good": "良好", "normal": "正常"}

在这里插入图片描述

针对上述长尾与小目标特性，训练阶段默认输入尺寸为 640×640，采用信封式 letterbox 以保持纵横比一致，并结合亮度/对比度/色相饱和度扰动来覆盖强光与背光差异；启用水平翻转与轻量仿射（缩放、平移、旋转≤10°），并以 Mosaic（p≈0.5）与 MixUp（p≈0.1）增强密集与遮挡场景，适度加入运动模糊与高斯噪声以模拟低码率摄像头；验证与测试阶段关闭 Mosaic/MixUp，仅保留基础颜色与几何对齐，保证评测一致性。考虑到类别不均衡，对采样与损失同步做约束：训练中按类别进行温和重采样与余弦退火混合权重，定位分支采用 CIoU/GIoU 组合以提升小框回归稳定性，分类分支在必要时引入 Focal Loss 以缓解前景–背景失衡。最终，数据加载器对跨页与跨会话的“检测记录”做轻量索引，支持按文件名与时间戳快速回溯到对应图像与 CSV 结果，从而与后续 Web 端导出与数据库入库流程顺畅衔接。
在这里插入图片描述

4. 模型原理与设计

本文以 YOLOv12 为主线，在同一接口下可无缝切换 YOLOv5–YOLOv12 进行对比。整体范式采用单阶段、Anchor-free、解耦检测头的实时检测器：输入经轻量骨干提取多尺度特征，进入自顶向下/自底向上的颈部融合（FPN/PAN-like），在 \(P_3!-!P_5\) 等多分辨率特征图上并行输出分类、目标性与框回归分支。骨干借鉴 ResNet/EfficientNet 的残差与复合缩放思想，在计算受限端选择可重参数化卷积与轻量注意力（如 ECA/SE）以提升小目标与遮挡下的判别力；颈部采用跨尺度双向融合以缓解密集场景的上下文缺失。与两阶段方法相比，该范式省去候选生成与重采样，推理链路更短，更适合浏览器摄像头与多路视频的低时延需求。

在结构细节上，注意力与解耦头协同解决“类间相似”“尺度变化”“反光遮挡”等监考难点。以缩放点积注意力为例，其核心为

\[\mathrm{Attention}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V, \]

其中 \(Q,K,V\) 分别表示查询、键与值，\(d_k\) 为键向量维度；在密集人群与强反光场景中，注意力有助于引入长程依赖以稳定局部特征。多尺度融合采用“上采样拼接 + \(1!\times!1/3!\times!3\) 卷积”以抑制别名效应；解耦头将分类与回归分离，缓解梯度冲突并提升收敛速度。网络整体架构图如下图所示：
在这里插入图片描述

任务建模方面，检测损失由分类、目标性与框回归三部分组成。分类采用 Focal Loss 抑制易样本：

\[\mathcal{L}*{\mathrm{cls}}=-\alpha(1-p_t)^\gamma\log p_t, \]

其中 \(p_t\) 表示对真实类别的预测概率，\(\alpha!\in![0,1]\) 为类别权重，\(\gamma!\ge!0\) 为调制因子；该项可缓解监考数据中“良好/正常”与“疑似作弊”比例失衡导致的过拟合。回归采用 CIoU/GIoU 组合以提升小框稳定性：

\[\mathrm{IoU}=\frac{|B\cap B^*|}{|B\cup B^*|},\quad \mathrm{GIoU}=\mathrm{IoU}-\frac{|C\setminus (B\cup B^*)|}{|C|},\]

\[\mathrm{CIoU}=\mathrm{IoU}-\frac{\rho^2(b,b^*)}{c^2}-\alpha v, \]

其中 \(B\) 与 \(B^*\) 为预测与真实框，\(C\) 为最小包围框，\(\rho(\cdot)\) 为框中心距离，\(c\) 为 \(C\) 的对角线长度，\(v\) 衡量长宽比一致性，\(\alpha\) 为权衡系数。总体损失写作

\[\mathcal{L}=\lambda*{\mathrm{box}}\mathcal{L}*{\mathrm{CIoU}}+\lambda*{\mathrm{obj}}\mathcal{L}*{\mathrm{BCE}}+\lambda*{\mathrm{cls}}\mathcal{L}*{\mathrm{focal}}, \]

其中 \(\lambda*{\cdot}\) 为权重超参，\(\mathcal{L}_{\mathrm{BCE}}\) 用于目标性二分类；在标签层面引入轻量标签平滑与任务对齐的样本分配（如基于 IoU/置信度的正负样本选择），以提升遮挡与长尾条件下的召回。

训练与正则化遵循“实时优先、鲁棒为本”的原则：采用 EMA 参数滑动平均稳定验证波动；优化器可选 AdamW/SGD（动量与权重衰减配合余弦退火学习率），并在前期使用 warmup 限制梯度爆发。为适配浏览器端分辨率与画幅变化，训练时启用自适应锚自由尺度（multi-scale）与 letterbox，对应 Web 端推理的 16:9 自适应显示；后处理默认 NMS（或在支持时启用 NMS-free 一致性分配），阈值 \((\text{Conf}, \text{IoU})\) 与类别筛选与前端实时联动。部署侧保留 ONNX/TensorRT 导出与 INT8/FP16 推理路径，结合可重参数化卷积将训练结构折叠为推理等价结构，以在机房与边缘节点上实现低延迟、可追溯的实时监测闭环。

5. 实验结果与分析

本章以“智能监考三分类（疑似作弊/良好/正常）”为目标，统一输入尺寸 640、训练 120 个 epoch，在同一数据划分（训练 2,083 / 验证 457 / 测试 214）与同一硬件环境（RTX 3070 Laptop 8 GB）下，对 YOLOv5nu、YOLOv6n、YOLOv7-tiny、YOLOv8n、YOLOv9t、YOLOv10n、YOLOv11n、YOLOv12n 与 YOLOv5su、YOLOv6s、YOLOv7、YOLOv8s、YOLOv9s、YOLOv10s、YOLOv11s、YOLOv12s 进行评测；指标包含 Precision、Recall、F1、mAP@0.5、mAP@0.5:0.95 及分段时延（Pre/Inf/Post）。时延统计基于单流推理的平均值，方便与 Web 前端的实时体验对齐。
在这里插入图片描述

从整体趋势看，轻量 n 系列在 10–21 ms 的端到端单帧时延区间内取得 0.734–0.750 的 F1 与 0.746–0.778 的 mAP@0.5，其中 YOLOv9t 的 mAP@0.5 最高（0.778），但推理时延较高（19.67 ms≈50.9 FPS）；YOLOv8n 与 YOLOv6n 的速度–精度折中最佳（10.17/10.34 ms，总体≈98.3/96.6 FPS；mAP@0.5 为 0.764/0.746）；YOLOv10n 受益于更轻的后处理（Post 仅 0.63 ms），在高并发场景具备优势。
在这里插入图片描述

小型 s 系列在更高算力占用下整体精度略升：YOLOv9s 的 mAP@0.5:0.95 领先（0.588），YOLOv7 的 F1 最高（0.759），但延迟偏大（29.52 ms≈33.9 FPS）；综合速度与精度，YOLOv8s 在 11.39 ms（≈87.8 FPS）下取得 0.744 的 F1 与 0.769 的 mAP@0.5，适合作为“高帧率主力”模型。
在这里插入图片描述

为便于横向比较，表5-1 汇总了两组模型的关键指标，并给出端到端总时延与理论 FPS（仅供单流估算）。

表5-1 统一评测结果汇总（RTX 3070 Laptop，输入 640）

组别	模型	Params(M)	FLOPs(G)	Pre(ms)	Inf(ms)	Post(ms)	Total(ms)	FPS	Precision	Recall	F1	mAP@0.5	mAP@0.5:0.95
n	YOLOv5nu	2.6	7.7	1.90	7.73	1.31	10.94	91.5	0.744	0.757	0.750	0.772	0.560
n	YOLOv6n	4.3	11.1	2.17	6.78	1.39	10.34	96.6	0.734	0.713	0.723	0.746	0.554
n	YOLOv7-tiny	6.2	13.8	2.28	14.74	4.06	21.08	47.5	0.715	0.695	0.705	0.671	0.439
n	YOLOv8n	3.2	8.7	1.95	6.83	1.39	10.17	98.3	0.757	0.734	0.746	0.764	0.576
n	YOLOv9t	2.0	7.7	1.87	16.51	1.29	19.67	50.9	0.748	0.745	0.746	0.778	0.600
n	YOLOv10n	2.3	6.7	2.08	11.24	0.63	13.95	71.7	0.739	0.730	0.735	0.759	0.571
n	YOLOv11n	2.6	6.5	2.11	9.44	1.42	12.97	77.1	0.742	0.721	0.731	0.764	0.569
n	YOLOv12n	2.6	6.5	1.91	12.47	1.37	15.75	63.5	0.738	0.733	0.736	0.760	0.573
s	YOLOv5su	9.1	24.0	2.28	8.45	1.51	12.24	81.7	0.765	0.746	0.755	0.772	0.575
s	YOLOv6s	17.2	44.2	2.22	8.59	1.45	12.26	81.6	0.732	0.729	0.731	0.749	0.563
s	YOLOv7	36.9	104.7	2.44	23.62	3.46	29.52	33.9	0.792	0.729	0.759	0.713	0.516
s	YOLOv8s	11.2	28.6	2.31	7.66	1.42	11.39	87.8	0.744	0.744	0.744	0.769	0.572
s	YOLOv9s	7.2	26.7	2.12	18.66	1.39	22.17	45.1	0.774	0.723	0.748	0.773	0.588
s	YOLOv10s	7.2	21.6	2.21	11.38	0.60	14.19	70.5	0.730	0.719	0.724	0.740	0.561
s	YOLOv11s	9.4	21.5	2.37	9.74	1.36	13.47	74.3	0.746	0.742	0.744	0.765	0.578
s	YOLOv12s	9.3	21.4	2.09	13.23	1.42	16.74	59.8	0.764	0.713	0.738	0.768	0.580

图 5-1 n 型模型：F1 与 mAP50 双条形图
在这里插入图片描述

图 5-2 s 型模型：F1 与 mAP50 双条形图
在这里插入图片描述

从类别层面看，PR 曲线表明 “good（良好）”类的 AP@0.5≈0.864，高于 “cheating（疑似作弊）” 的 0.672；后者主要受小尺度、遮挡与反光干扰，易被压到背景或被“good”误判。在这里插入图片描述
F1-Confidence 曲线给出全类最佳阈值 Conf≈0.47（F1≈0.74），据此建议前端默认阈值设为 0.47，并在高召回场景（人工复核在线）将阈值下调至 0.40 左右，以减少漏检；在严格告警场景可上调至 0.55 以抑制误报。训练曲线显示 box/cls/dfl 损失稳定下降，验证 mAP 持续上升且未明显过拟合，说明增强与正则化设置合理。
在这里插入图片描述

误检与漏检分析：典型误警来自“低头写字/看桌面”被误认为“cheating”，以及手持文具的高反光边缘引起的伪目标；漏检多出现在手机被遮挡或极小尺度区域。改进建议包括：（i）在训练集中增加“手部-桌面-文具”的困难负样本与强反光样本；（ii）对“cheating”子类做更细粒度标注（如 phone/earpiece/paper-slip），配合类别重权重或 Focal Loss γ↑；（iii）保持多尺度训练并提升特征金字塔的浅层分辨率；（iv）对浏览器摄像头流启用轻量 TTA（翻转/多尺度） 与时序稳定策略（短窗 NMS/投票），兼顾时延与一致性。

部署建议（结合 Web 端体验）：
（1）远程实时监考（高 FPS）：推荐 YOLOv8n / YOLOv6n，在 10.2–10.3 ms 总时延下提供 ~97–98 FPS 与 0.746±0.02 的 F1；
（2）机房集中与复核（精度优先）：推荐 YOLOv9s / YOLOv5su，mAP@0.5:0.95 分别为 0.588/0.575，适合配合较低阈值与人工复核；
（3）高并发多路流：推荐 YOLOv10n/s，其 PostTime≈0.6 ms 的 NMS-free 推理减少后处理瓶颈，适合 SocketIO 多会话推送；
（4）Web 前端阈值与 IoU 滑块默认 Conf=0.47, IoU=0.5，并暴露“类别筛选”和“批量导出”以支撑审计闭环。

6. 系统设计与实现

6.1 系统设计思路

系统采用四层分层架构：表现与交互层（Web 前端）—业务与会话管理层（Flask+SocketIO）—推理与任务调度层（YOLO 推理引擎）—数据持久化层（SQLite/日志/导出）。多源输入（图片/视频/摄像头）经前端上传或推流后进入服务端预处理（尺寸对齐、颜色归一化、信封式 letterbox），再由模型注册表完成权重热切换与类别同步，推理结果经后处理（NMS 或 NMS-free 一致分配、阈值与类别筛选、坐标反归一化）与统计模块（帧级/任务级 Precision/Recall、告警计数）汇总后，通过 SocketIO 同步双帧（原始帧与标注帧等宽 16:9）推送至浏览器端，形成“检测—可视—交互—再检测”的闭环。

为保障实时性与一致性，平台以任务调度器统一管理图片/视频/摄像头三个通道：视频与摄像头任务采用独立工作协程与帧缓冲，严格按照“解码→预处理→推理→后处理→双帧封装→推送”的流水化顺序执行；参数侧（Conf/IoU/类别筛选/模型选择）由会话管理器维护 强一致广播，确保浏览器调节与服务端推理参数同一来源。系统在会话层提供登录/注册与一次性跳过两种进入方式，口令哈希与会话 TTL 结合基础鉴权与频率限制，既保证体验也兼顾安全与审计。

在可扩展性方面，推理与任务调度层通过“模型注册表 + 引擎适配器”抽象 ONNX/TensorRT/PyTorch 三种后端；权重热切换时先在后台 warm-up 并刷新类别字典，再以原子操作切换句柄以减少抖动。数据持久化层由 SQLite 驱动“账户/任务/结果/模型版本/导出记录”五类实体，导出中心集中管理 CSV、带框图片/视频（MP4 缓冲） 与日志；路径与命名规范跨平台兼容，数据库迁移脚本在升级时自动补齐表结构，保障线上持续可用与结果可追溯。

图 6-1 系统流程图
图注：系统自初始化到多源输入，经预处理、推理、后处理与统计后，以同步双帧和参数同步形成浏览器端交互闭环。
在这里插入图片描述

图 6-2 系统设计框图
图注：体现四层模块边界与数据流向；浏览器端通过 SocketIO 与 HTTP 交互服务端，推理层对多路视频/摄像头任务进行同步双帧处理，数据层负责结果、账户与导出归档。

在这里插入图片描述

6.2 登录与账户管理

用户打开登录界面后，系统首先根据是否已有账号引导至注册或登录；注册路径中，前端提交最小必要信息，服务端完成口令哈希与唯一性校验后写入数据库并建立初始偏好（阈值、主题、模型默认项）；登录路径在校验通过后生成带 TTL 的会话并装载个性化配置与历史检测记录，随后进入概览界面。用户在任何时刻可进入资料页修改头像与口令（需二次校验），或选择一次性跳过进入演示会话（只读、受限导出与时长限制）；注销或切换账号立即清理会话并回收下载令牌，确保结果与设置的持久化与可追溯同时与主检测流程顺畅衔接。

图 6-3 登录与账户管理流程
在这里插入图片描述

代码下载链接

如果您希望获取博客中提及的完整资源包，包含测试图片、视频、Python文件(*.py)、网页配置文件、训练数据集、代码及界面设计等，可访问博主在面包多平台的上传内容。相关的博客和视频资料提供了所有必要文件的下载链接，以便一键运行。完整资源的预览如下图所示：

在这里插入图片描述

资源包中涵盖了你需要的训练测试数据集、训练测试代码、UI界面代码等完整资源，完整项目文件的下载链接可在Gitee项目中找到➷➷➷

完整项目下载、论文word范文下载与安装文档：https://deeppython.feishu.cn/wiki/WlKEwonqDib2IjkTp3rcj5sRnAc

完整安装运行教程：

这个项目的运行需要用到Anaconda和Pycharm两个软件，下载到资源代码后，您可以按照以下链接提供的详细安装教程操作即可运行成功，如仍有运行问题可私信博主解决：

Pycharm和Anaconda的安装教程：https://deepcode.blog.csdn.net/article/details/136639378；

软件安装好后需要为本项目新建Python环境、安装依赖库，并在Pycharm中设置环境，这几步采用下面的教程可选在线安装（pip install直接在线下载包）：

Python环境配置教程：https://deepcode.blog.csdn.net/article/details/136639396；

7. 结论与未来工作

本文围绕“智能监考/考试异常行为检测”构建了集算法、评测与 Web 实时交互于一体的平台：后端以 Flask+SocketIO 驱动多源输入闭环，前端实现左右等宽同步双帧、进度与阈值控制、CSV/带框一键导出与 SQLite 入库；模型侧在统一接口下对 YOLOv5–YOLOv12 的 n/s 两个系列完成对比，结合你提供的数据可见在 RTX 3070 Laptop 8 GB 上，n 系列以 10–21 ms 的端到端时延获得 0.734–0.750 的 F1 与 0.746–0.778 的 mAP@0.5，其中 YOLOv8n 与 YOLOv6n具备最佳速度–精度折中，而 YOLOv9t 在 mAP@0.5 上略占优势但推理更慢；s 系列在精度上进一步提升（例如 YOLOv9s 的 mAP@0.5:0.95 达到 0.588），适合离线复核与严审场景。混淆矩阵与 PR/F1–Conf 曲线表明“良好”类别最易区分，“疑似作弊”受小尺度与遮挡影响显著，系统默认将 Conf≈0.47 作为全类最佳阈值，并提供浏览器侧的快速联动调节以兼顾高召回与低误报。总体而言，所提出的端到端工程化实现能在单机多路场景下稳定运行，具备良好的可移植性与可复现性；同时，由于方法面向“小目标+遮挡+实时”的共性难点，其模型与系统设计亦可迁移至机械器件外观缺陷检测等工业场景，通过轻微的数据与阈值适配即可复用推理与可视化管线。

未来工作将面向三条主线推进：其一是模型侧的进一步轻量化与时空建模——引入蒸馏、结构化剪枝与 INT8 量化，探索 NMS-free 与短窗时序投票/跟踪融合（如 ByteTrack/光流提示）以稳定视频告警，并评估多模态先验（语音/按键声/屏幕采样）对复杂作弊行为的辅助价值；其二是系统侧的工程与治理能力——提供 Docker 镜像与一键部署脚本，采用分布式任务队列与多GPU/多进程资源编排，接入 WebRTC 低延迟推流、RBAC 角色权限与审计链路、i18n 与多租户隔离、对象存储与版本化导出；其三是数据侧的持续迭代——建立主动学习与在线评估回路，针对易混样本自动建议再标注，建设数据治理与漂移监测仪表盘，研究合成数据与域自适应以增强跨设备泛化，同时完善隐私合规（人脸/隐私区域脱敏、日志最小化与加密存储）。这些方向将把当前原型进一步打磨为可规模化部署的智能监考平台，并为其他实时视觉质检任务提供可复用的技术底座。

参考文献（GB/T 7714）

1 Ultralytics. Home—Ultralytics YOLO Docs[EB/OL]. 2025-12-（访问日期见链接）. (Ultralytics Docs)
2 Ultralytics. YOLOv8 Model Docs[EB/OL]. 2025-12-. (GitHub)
3 Lv W, Li Z, Liu S, et al. RT-DETR: DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2023. (arXiv)
4 何海峰, 等. 基于深度学习的 YOLO 目标检测综述[J]. 电子与信息学报, 2022. doi:10.11999/JEIT210790. (JEIT)
5 Ultralytics. YOLOv8 文档（Anchor-free 与解耦头）[EB/OL]. 2025-12-. (GitHub)
6 Ge Z, Liu S, Wang F, et al. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. arXiv:2107.08430, 2021. (arXiv)
7 Wang C-Y, Bochkovskiy A, Liao H-Y M. YOLOv7: Trainable Bag-of-Freebies Sets New SOTA for Real-Time Object Detectors[EB/OL]. arXiv:2207.02696, 2022. (arXiv)
8 Wang C-Y, et al. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[EB/OL]. arXiv:2402.13616, 2024; ECCV 2024 论文集. (arXiv)
9 Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024. (arXiv)
10 Ultralytics. YOLO11 Release Blog[EB/OL]. 2024-10-. (Ultralytics)
11 YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL]. arXiv:2502.12524, 2025. (arXiv)
12 Lv W, Li Z, Liu S, et al. RT-DETR: Real-Time DEtection TRansformer[EB/OL]. arXiv:2304.08069, 2023. (arXiv)
13 Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]//NeurIPS, 2015. (arXiv)
14 Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]//ECCV, 2016. (arXiv)
15 Lin T-Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//ICCV, 2017. (CVF Open Access)
16 Xu S, Wang X, Lv W, et al. PP-YOLOE: An Evolved Version of YOLO[EB/OL]. arXiv:2203.16250, 2022. (arXiv)
17 Tian Z, Shen C, Chen H, He T. FCOS: Fully Convolutional One-Stage Object Detection[C]//ICCV, 2019. (CVF Open Access)
18 Zhou X, Wang D, Krähenbühl P. Objects as Points[EB/OL]. arXiv:1904.07850, 2019. (arXiv)
19 Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]//ECCV, 2020. （可参考 RT-DETR 相关综述） (arXiv)
20 Zhu X, Su W, Lu L, et al. Deformable DETR[EB/OL]. arXiv:2010.04159, 2020. （与端到端收敛改进相关） (ar5iv)
21 Rezatofighi H, Tsoi N, Gwak J, et al. Generalized IoU: Metric and Loss for Bounding Boxes[C]//CVPR, 2019. (CVF Open Access)
[22] Zheng Z, Wang P, Liu W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[C]//AAAI, 2020. (arXiv)
[23] NVIDIA. TensorRT Developer Guide[EB/OL]. 2024-12-. (NVIDIA Docs)
[24] Microsoft ONNX Runtime Quantization Docs[EB/OL]. 2025-. (ONNX Runtime)
[25] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
[26] 李航. 统计学习方法（第二版）[M]. 北京: 清华大学出版社, 2019.

注：以上网络引用均为可追溯来源；若同一方法出现多处引用，取最具代表性的主文献或官方说明。后续章节将基于统一数据与脚本给出可复现实验、曲线与图表。

posted @ 2026-04-21 23:00 逗逗班学Python 阅读(9) 评论(0) 收藏举报

刷新页面返回顶部

deeppython

最新YOLO实现的智能监考实时检测平台（Flask+SocketIO+HTML_CSS_JS）

摘要

1. 网页功能与效果

2. 绪论

2.1 研究背景与意义

2.2 国内外研究现状

2.3 要解决的问题及其方案

2.4 博文贡献与组织结构

3. 数据集处理

4. 模型原理与设计

5. 实验结果与分析

6. 系统设计与实现

6.1 系统设计思路

6.2 登录与账户管理

代码下载链接

7. 结论与未来工作

参考文献（GB/T 7714）

公告