最新YOLO实现的癌症图像实时检测平台(Flask+SocketIO+HTML_CSS_JS)
摘要
本文面向癌症影像的实时目标检测与可视化分析,构建了基于 Flask + Flask-SocketIO/HTML/CSS/JS 的 Web 网页界面,后端采用 YOLOv5–YOLOv12(共 8 种) 模型提供统一推理服务,覆盖显微病理切片、术中镜检图像与内窥/超声视频等场景。系统支持 图片/视频/浏览器摄像头输入,提供 双画面对比(原图/检测结果并行)、进度控制(暂停/继续/停止/跳转)、CSV 导出、带框结果一键下载,并将检测与审计信息写入 SQLite 入库;用户可 登录/注册(可跳过),会话隔离,快速定位最近记录。界面内置 模型选择/权重上传 与标签同步刷新,支持多模型 mAP、F1、PR 曲线、训练曲线 的横向比较与报告导出,满足科研复现实验与临床辅助验证双重需求。我们提供可复现实验脚本与示例数据,前端采用响应式布局与 SocketIO 流式推送确保低延迟体验。文末提供完整工程与数据集下载链接,便于读者一键部署与二次开发。数据与代码可下载,并包含 Web 网页界面实时演示 说明与使用指引。
讲解视频地址:基于深度学习的癌症图像检测系统(Web系统+完整项目分享+数据集+多YOLO模型)
YOLOv12-v11/v10/v9/v8/v7/v6/v5系统(八个模型,含说明论文)合集下载:https://mbd.pub/o/bread/YZWck59rbQ==
说明论文下载:https://mbd.pub/o/bread/YZWck5xrbQ==
YOLOv12下载:https://mbd.pub/o/bread/YZWbmpxuaQ==
YOLOv11下载:https://mbd.pub/o/bread/YZWbm5psZw==
YOLOv10下载:https://mbd.pub/o/bread/YZWbm5ltZg==
YOLOv9下载:https://mbd.pub/o/bread/YZWbm5Zqag==
安装与教程文档:https://deeppython.feishu.cn/wiki/U3PJwPmNziawOck6owjc2YyMnWf
@
1. 网页功能与效果
(1)登录注册:提供注册、登录与一次性“跳过”三种入口,口令哈希存储并校验强度;登录态在当前浏览器会话内生效,支持多标签页共享与手动注销。首次进入可自动载入个性化偏好与历史记录,未登录仅保留最小权限与本地缓存。

(2)功能概况:主导航遵循“概览 → 图片/视频/摄像头 → 模型选择 → 导出”的动线,关键操作在顶部工具条聚合呈现。状态区实时显示推理帧率、GPU/CPU占用与当次统计,提供一键跳转到检测记录与导出中心以减少跨页。
视频检测:采用同步双帧渲染展示原始与检测结果,等宽布局并自适配16:9;支持进度条拖拽、暂停/继续/停止与关键帧跳转。推理时可在线调节Conf/IoU与类别筛选,缓冲区支持编码为MP4导出,并可连同CSV与带框视频一键下载。

(4)更换模型:支持上传权重立即切换当前模型,类别列表与调参面板同步刷新,无需重启会话。系统保留最近使用的多套权重以便快速回滚,并记录版本与时间戳用于结果溯源与对比。

(5)概览界面:以卡片化方式呈现最近任务、数据源与关键指标,支持按文件名或批次号高亮定位并快速复核。统计视图聚合mAP/F1快照与处理量曲线,结合筛选器实现跨页共享,便于从全局把握模型与数据的运行态。

2. 绪论
2.1 研究背景与意义
癌症影像的临床流程正快速走向“实时化与可视化解释”,其中术中内镜视频与病理全视野图像(WSI)分别代表高帧率与超大分辨率两端的极端负载,对检测系统在延迟、稳定性与可追溯性上提出了严苛要求。为了在“快而准”的前提下形成可复现的研究闭环,本文以 YOLOv5–YOLOv12 的八类模型为核心,构建基于 Flask + Flask-SocketIO/HTML/CSS/JS 的实时检测平台,力求在病灶定位、双画面对比、结果导出与数据库审计等环节实现工程化统一。面向临床辅助决策与科研复现双目标,该平台强调模型热切换、权重可溯源、跨模态输入(图片/视频/摄像头)、以及 mAP、F1、PR 等指标的在线分析,为“算法—系统—数据”三位一体的落地路径提供可操作样例。
2.2 国内外研究现状
在病理侧,CAMELYON16 以乳腺哨兵淋巴结转移检出为目标,率先建立了面向 WSI 的大规模评测基准,推动了基于深度学习的病灶检测在超高分辨率场景中的验证与对比 1。(Camelyon16) 相关研究显示,参赛算法在模拟工作流中已可与多名病理学家形成可比性能,为“人机协同复核”提供了现实依据 2。(JAMA Network) 在内镜侧,Kvasir-SEG 等公开数据集推动了病灶轮廓与检测任务的规范化标注与评测,使得跨模型与跨论文的横向对比成为可能 3。(arXiv) 多项系统综述与荟萃分析提示,实时 AI-CADe 在前瞻性或回顾性研究中能提升息肉/腺瘤检出率,验证了“实时提示”在临床端的潜在价值 4。(GIE Journal)
从算法范式看,端到端 Transformer 检测器以集合预测与匈牙利匹配取代锚框与后处理,其中 DETR 以集合损失实现 NMS-free,但原始版本在训练收敛与小目标上存在挑战 5。(arXiv) RT-DETR 在编码器高效化与不确定性最小化查询选择上取得突破,使 R50/R101 在 COCO 上达到 53.1%/54.3% AP 与 108/74 FPS(T4),在“速度—精度”上对实时 YOLO 形成压制与互补 6。(arXiv) 一阶段 Anchor-based/Anchor-free 的对照上,Focal Loss 通过重加权解决前景—背景极度不平衡,奠定了单阶段检测的训练基石 7;(CVF Open Access) FCOS 以像素级密集预测消解锚框超参敏感与匹配复杂度 8;(arXiv) CenterNet 将目标建模为“点”,在轻量化与实时性方面具备工程吸引力 9。(arXiv) 在定位回归上,GIoU 到 DIoU/CIoU/EIoU 的演进引入重叠、中心距离与长宽比等几何因素,显著提升了收敛性与定位精度,已成医学检测训练的“默认配置” 1012。(CVF Open Access)
YOLO 家族仍是工程侧的主力:YOLOv6 报告 v6-N 在 COCO 35.9% AP 且 T4 极限吞吐达 1234 FPS,强调工业部署的训练/测试技巧与量化路径 13;(arXiv) YOLOv7 通过可训练“bag-of-freebies”在 51.4% AP、161 FPS 下取得强势折中 14;(arXiv) YOLOv10 以一致性双配对实现 NMS-free 训练,YOLOv10-S 在相近 AP 下较 RT-DETR-R18 提升 1.8× 速度并较 YOLOv9-C 降低 46% 延迟 15;(NeurIPS Proceedings) Ultralytics 的 YOLO11 聚焦生产级生态与端侧优化,形成训练、部署与工具链的一体化支持 16;(Ultralytics) 最新的 YOLOv12 引入注意力中心化设计,据报道 YOLOv12-N 在 T4 上达 40.6% mAP 与 1.64 ms 延迟,但注意力块带来的显存与 CPU 吞吐权衡需在实际工程中评估 17。(arXiv)
医学场景的工程落地依赖算子层面的优化与部署链路的可复验性:ONNX Runtime 的 PTQ/动态量化为通用 CPU/GPU 提供了低门槛加速路径 18;(ONNX Runtime) TensorRT 的 INT8 标定、层融合与内核自动调优可在 Jetson/数据中心显著降低端到端延迟 19;(NVIDIA Docs) 面向嵌入式实时视频,DeepStream + TensorRT 的流水线在 YOLO11 上已有成熟指引与基准经验,利于临床侧的稳定集成与维护 20。(Ultralytics Docs) 同时,中文综述工作对 YOLO 在医疗物体检测的系统化应用与改进趋势进行了梳理,也对内镜分割/检测的难点与改进路线给出了本土化总结,提示跨设备与长尾样本仍是当前研究的主攻方向 2123。(jeit.ac.cn)
表 1 代表性方法与关键指标(与本文任务相关)
| 方法 | 范式/家族 | 数据集 | 关键改进 | 优势与局限 | 指标(mAP/F1/延迟/参数等) | 适用场景 |
|---|---|---|---|---|---|---|
| YOLOv6-N | 一阶段/YOLO | COCO | 训练/测试技巧整合、量化友好 | 吞吐极高,精度中等 | 35.9% AP;1234 FPS@T4 | 高吞吐实时基线 13。 |
| YOLOv7 | 一阶段/YOLO | COCO | 可训练 freebies、E-ELAN | 速度—精度折中强 | 51.4% AP;161 FPS | 通用实时/边缘部署 14。 |
| RT-DETR-R50 | 端到端/DETR | COCO | 高效混合编码器、UMQ | NMS-free,百帧级 | 53.1% AP;108 FPS@T4 | 降后处理瓶颈的视频流 6。 |
| YOLOv10-S | 一阶段/YOLO | COCO | 一致性双配对、NMS-free | 同精度更低延迟 | vs R18 1.8× 更快;vs v9-C 延迟 −46% | 高帧率流水线 15。 |
| YOLOv12-N | 一阶段/YOLO | COCO | 注意力中心化 | 全局建模强、显存更敏感 | 40.6% mAP;1.64 ms@T4 | 遮挡/细粒度 17。 |
| YOLOX-L | 一阶段/Anchor-free | COCO | 解耦头、SimOTA | 精度高、生态完善 | 50.0% AP;68.9 FPS@V100 | 实时精度折中 16。 |
| PP-YOLOE-l | 一阶段/Anchor-free | COCO | CSPRepResNet、TAL | 工程易部署 | 51.4 mAP;78.1 FPS@V100 | 工业场景部署 17。 |
| EfficientDet-D3 | 一阶段/非 YOLO | COCO | BiFPN、复合缩放 | 参/算量友好 | 参考原文报告 | 资源受限设备 15。 |
注:表中数值与表述均引自对应论文或官方报告,平台差异可能导致绝对数值略有偏移,本文后续实验将统一硬件与导出策略以保证可比性。
参考文献(本节):见文末 GB/T 7714 列表。
2.3 要解决的问题及其方案
围绕“癌症图像实时检测平台(Flask + SocketIO)”,本文聚焦四类核心问题:(1)检测准确性与实时性的统筹,在内镜快速运动、反光与小目标长尾下保持稳定召回与低延迟;(2)环境适应性与泛化,应对跨设备、跨中心与成像参数变化带来的域偏移;(3)网页端交互的直观性与功能完整性,在图片/视频/摄像头输入间切换流畅,并提供双画面对比、进度控制与导出;(4)数据处理效率与存储安全,实现检测记录、导出结果与用户会话的可追溯与合规。为此提出对应方案:(1)以 YOLOv12 为核心模型,保留 YOLOv5–YOLOv11 作为对比基线,引入数据增强、迁移学习与难例挖掘以提升 mAP、F1 与鲁棒性;(2)基于 PyTorch 训练并导出 ONNX/TensorRT,结合 FP16/INT8 与层融合削减端到端延迟;(3)以 Flask + Flask-SocketIO/HTML/CSS/JS 构建前后端闭环,提供左右等宽双画面对比、视频同步双帧与进度控制、CSV 导出与带框结果一键下载;(4)统一 CSV 与 SQLite 存档结构,打通登录/会话、权重版本与导出溯源,保障稳定运行与团队协作。
2.4 博文贡献与组织结构
贡献概述:(1)综合文献综述:系统梳理癌症影像实时检测在病理/内镜双场景的关键难点与算法进展,并给出与任务难点一一对应的策略清单;(2)模型选择与优化:在统一评测协议下完成 YOLOv5–YOLOv12 的端到端对比与导出优化,明确“轻量—泛化—可部署”的工程边界;(3)美观友好的网页设计:实现图片/视频/摄像头三源输入、模型热切换与双画面对比,提供进度控制、统计与导出的一体化体验;(4)算法效果对比分析:提供 mAP、F1、PR 与训练曲线的可复现实验,并支撑误检/漏检成因的结构化分析;(5)完整数据与代码资源:给出可下载的工程与示例数据,便于复现与二次开发。文章随后章节将依次展开数据集处理、模型原理与设计、实验结果与分析、系统设计与实现,并在结论部分总结工程可迁移性与未来工作方向。
3. 数据集处理
本研究使用的肿瘤检测数据集共 3076 幅医学图像,按照训练/验证/测试三部分划分为 2634/301/141,比例约为 85.6%/9.8%/4.6%,固定随机种子设为 2024 以便复现。标注采用 YOLO 文本格式(每行为 class cx cy w h,坐标归一化到 [0,1]),类别映射为 {Benign→良性, Tumor→肿瘤};其中“良性”样本多为无目标图像,作为背景参与训练,“肿瘤”为唯一检测类并以边界框给出。您提供的统计图显示:实例几乎全部集中在“肿瘤”一类,属于明显的类别长尾;框中心 (x,y) 在视野中央略密集而整体近似均匀;宽高分布呈右偏,w 与 h 近线性相关,绝大多数目标处于小—中尺度,这与临床上小体积病灶更常见相吻合。样例拼图与可视化标注表明,图像对比度差异较大、边界模糊与局部遮挡时有出现,提示训练阶段需要在增广与标签质量控制上做针对性设计。
Chinese_name = {'Benign': "良性", 'Tumor': '肿瘤'}

针对上述难点,本研究在不改变标注语义的前提下进行了轻量清洗与增广策略:首先对标注进行一致性检查,剔除越界或退化框并裁剪到图像边界,保证重复框经 IoU>0.9 合并;随后采用 letterbox 缩放到训练尺度(默认 640)并开启多尺度训练(短边 480–896 随机),以提升尺度泛化能力;考虑到图像以灰度/弱纹理为主,使用轻度对比度与伽马扰动、随机仿射(旋转/缩放/平移/轻微切变)、随机水平翻转与 0.05 概率的高斯噪声/轻模糊,避免过强色彩扰动带来的分布漂移;对小目标占比高的特性,设置随机裁剪的最小可见面积阈值以保护小框,并将 Mosaic/MixUp 控制在低概率(0.2/0.1)以兼顾语义完整性与鲁棒性;最后基于训练集 w–h 进行 k-means++ 锚框聚类(若采用 Anchor 头)或直接使用 Anchor-free 头(YOLOv8/YOLOv10+)以减少先验不匹配。所有元数据(类别名中/英、划分索引、聚类结果与增广配置)与检测记录统一写入 SQLite 与 CSV,便于 Web 端检索、导出与审计;界面显示层采用中文标签“良性/肿瘤”,并在双画面对比与统计面板中复用同一套映射,保证前后端语义一致。

4. 模型原理与设计
本系统默认以 YOLOv12 为主线并保留 YOLOv5–YOLOv11 的兼容与对比,遵循“一阶段、端到端、解耦检测头”的实时检测范式。针对本任务的“单类小目标(肿瘤)+ 长尾 + 低对比度”特点,骨干网络采用轻量卷积块与稀疏连接(如 C2f/CSP 一类结构)以稳定梯度传播;颈部使用金字塔特征融合(FPN/PAN 或其改进型)增强多尺度表征,重点保留高分辨率分支(P3)以提升小目标召回;检测头解耦分类与回归分支,分别优化分类置信度与定位精度,并在训练时采用任务对齐的样本分配与正负样本重加权以缓解前景—背景不平衡。作为与 YOLOv8–YOLOv11 的接口层,YOLOv12 在若干关键阶段引入更高效的注意力与低开销的全局依赖建模,从而在保持吞吐的同时提高对边界模糊、遮挡与反光场景的鲁棒性。
在结构细节上,骨干对每一层特征图\({P_3,P_4,P_5}\)进行自顶向下与自底向上的双向融合,辅以轻量化注意力。以多头自注意力为例,其计算可写作
其中\(Q,K,V\in\mathbb{R}^{N\times d}\)分别为查询/键/值,\(W_i^{(\cdot)}\)为可学习投影,\(h\)为头数;在实际实现中以 深度可分离卷积 + 通道注意力近似替代部分全局算子以降低显存占用和延迟。解耦头包含分类分支\(\sigma(\cdot)\)与回归分支,前者输出类别置信度,后者回归边界框偏移与对象性分数;在线路上统一为 Anchor-free 预测(中心点 + 尺度/偏移)或 Anchor-based 预测(先验框 + 偏移),两者在导出与后处理阶段共享同一 NMS/后处理接口。网络整体架构图如下图所示:

损失与任务建模方面,分类采用带标签平滑的二元交叉熵以适配“肿瘤/背景”单类检测:
其中\(K\)为类别数、\(\epsilon\in[0,1)\)为平滑系数、\(p_c\)为预测概率;对前景—背景极度不平衡的小目标场景,可在\(\mathcal{L}*{cls}\)外叠加 Focal 重加权\(\alpha(1-p)^\gamma\)(实现层面等价于开启“置信度焦点”)。定位采用 CIoU/EIoU 等几何一致性损失以加速收敛并提升长宽拟合:
以及
其中\(\rho(\cdot)\)为中心距离,\(c\)为最小包围盒对角线,\(w,h\)与\(w^{gt},h^{gt}\)分别为预测与真值宽高,\(w_c,h_c\)为包围框宽高。训练总损失为\(\mathcal{L}=\lambda*{cls}\mathcal{L}*{cls}+\lambda*{box}\mathcal{L}*{{C,E}\mathrm{IoU}}+\lambda*{obj}\mathcal{L}_{obj}\),权重系数按验证集表现网格搜索设定。针对我们数据集中“小而密+边界模糊”的特征,正样本半径与中心先验会适度放宽,以降低漏检。
训练与正则化采用 余弦退火学习率策略
配合 EMA 权值滑动、轻度 MixUp/Mosaic 和随机仿射以提升泛化;BN(或 SyncBN)用于稳定不同批大小下的分布漂移,必要时在小批次场景启用冻结 BN 统计量。推理阶段默认 NMS 阈值\(\mathrm{IoU}*{nms}\in[0.5,0.7]\)、置信度阈值\(p*{th}\in[0.25,0.5]\),在浏览器端暴露为可交互参数;当选择 YOLOv10/12 的 NMS-free 训练配置时,后处理退化为“Top-K 过滤 + 轻量聚合”,进一步降低端到端延迟。为满足网页实时性与稳定性,训练好的权重导出为 ONNX/TensorRT,并在 FP16(可选 INT8 标定)下运行;针对“肿瘤”单类,我们在前端进行单色映射与统计简化,结合 P3 高分辨率分支与置信度曲线校准,保证小病灶的可见性与可复核性。若需最小改进,建议:仅在颈部加入一条小目标辅助支路(由 P2/P3 轻量堆叠卷积组成)与类别先验重标定(温度缩放),在不显著增加延迟的前提下改善早期漏检与低置信度问题。
5. 实验结果与分析
本节在 RTX 3070 Laptop 8GB 上统一评测 640 输入、单类(Tumor)检测,统计 预处理/推理/后处理(Pre/Inf/Post)分时延迟与 Precision、Recall、F1、mAP50、mAP50–95 等指标。由于单类场景与目标多为 小—中尺度,我们特别关注端到端延迟与高 IoU 区间的定位质量;文末建议将 Web 端默认阈值设为 Conf≈0.48、NMS IoU=0.55–0.60 以取得更高 F1 与稳定召回(见 F1–Confidence 曲线顶点)。整体上,所有 “n/s” 级模型均可实现 60–95 FPS 的实时处理,精度分布相对集中,但在定位质量(mAP50–95)与后处理开销上差异更明显。

从 nano(n)级对比看,mAP50 最高的为 YOLOv12n(0.964)与 YOLOv11n(0.964),二者在高 IoU 区间的 mAP50–95 分别为 0.750 与 0.755,显示出较好的定位一致性;而 YOLOv6n/YOLOv8n 以 10.34/10.17 ms 的端到端延迟给出更优的速度—能效比,是视频流场景的稳健基线。YOLOv12n 的 F1=0.935 为本组最佳,但推理延迟 15.75 ms 略高,适合优先追求召回的离线审阅或高端 GPU;YOLOv10n 在单类数据上的 F1 明显偏低(0.893),结合我们在曲线中的观察,推测与 NMS-free 训练与数据分布/阈值选择不完全匹配相关,调高查询规模与调整置信度温度可显著缓解。YOLOv7-tiny/YOLOv9t 的后处理耗时更高(Post≥1.29 ms,整体 19–21 ms),在 Web 端会直接转化为更“粘滞”的进度条反馈。

在 small(s)级对比中,YOLOv9s 以 mAP50=0.962、mAP50–95=0.761、F1=0.936 获得相对均衡的精度与定位质量;YOLOv8s 的端到端延迟 11.39 ms 为本组最快,适合浏览器摄像头与高并发视频流;YOLOv6s/YOLOv12s 在高 IoU 范围内略优于 YOLOv8s,且在长尾小目标上的召回更稳。总体上,s 级相较 n 级 mAP50–95 提升 0.5–1.5 个百分点,代价是 ~1–6 ms 的延迟增加;若部署目标是 ≥60 FPS + 高召回,建议以 YOLOv8s/YOLOv6s 为缺省,并在“模型选择”中保留 YOLOv9s/YOLOv12s 作为高精度切换档。

PR 曲线与 mAP@0.5=0.957 表明在中高召回区仍保持极高精度,端到端误检主要来自 高亮髓腔/血管壁/病灶边界反光 的“类内近邻”;

混淆矩阵 显示对真阳性的识别率约 95%,剩余 5% 漏检集中在 超小或低对比 病灶,建议在 Web 端打开放宽的 类间筛选 + 低阈值二次回放 模式复核。训练日志曲线呈现 稳定单调下降与早期快速收敛,验证 mAP 在 30–40 个 epoch 后基本收敛,后期主要是高 IoU 精修阶段的缓慢提升,符合我们的小目标/单类建模预期。

为便于横向比较,表 5-1 汇总了 nano 组 核心指标与端到端延迟;图 5-1 给出同组 F1 与 mAP50 的双条形图(SVG,可下载),颜色采用清新学术配色并标注确切数值。基于这些结果,Web 部署建议:若以 极致实时 为首要目标,默认 YOLOv8n(≈10.2 ms);若以 综合精度 为首要目标,默认 YOLOv12n/YOLOv11n,并在设置中将 Conf≈0.48、IoU≈0.6 设为模板;对于 超小病灶/边界模糊 的病例,建议启用 TTA(水平翻转)+ 低阈值回放 以及“同帧双模”快速复核。
表 5-1 Nano 组(YOLOv5nu–YOLOv12n)端到端对比(RTX 3070 Laptop, 8GB)
| 模型 | Params(M) | FLOPs(G) | 端到端延迟(ms) | Precision | Recall | F1 | mAP50 | mAP50–95 |
|---|---|---|---|---|---|---|---|---|
| YOLOv5nu | 2.6 | 7.7 | 10.94 | 0.955 | 0.910 | 0.932 | 0.959 | 0.749 |
| YOLOv6n | 4.3 | 11.1 | 10.34 | 0.939 | 0.930 | 0.934 | 0.954 | 0.748 |
| YOOLv7-tiny | 6.2 | 13.8 | 21.08 | 0.954 | 0.895 | 0.923 | 0.936 | 0.716 |
| YOLOv8n | 3.2 | 8.7 | 10.17 | 0.942 | 0.888 | 0.914 | 0.951 | 0.748 |
| YOLOv9t | 2.0 | 7.7 | 19.67 | 0.927 | 0.922 | 0.924 | 0.959 | 0.750 |
| YOLOv10n | 2.3 | 6.7 | 13.95 | 0.880 | 0.906 | 0.893 | 0.942 | 0.746 |
| YOLOv11n | 2.6 | 6.5 | 12.97 | 0.940 | 0.913 | 0.926 | 0.964 | 0.755 |
| YOLOv12n | 2.6 | 6.5 | 15.75 | 0.955 | 0.916 | 0.935 | 0.964 | 0.750 |
S 组(small)表格如下(端到端延迟 = PreTime + InfTime + PostTime):
表 5-2 Small 组(YOLOv5su–YOLOv12s)端到端对比(RTX 3070 Laptop, 8GB)
| 模型 | Params(M) | FLOPs(G) | 端到端延迟(ms) | Precision | Recall | F1 | mAP50 | mAP50–95 |
|---|---|---|---|---|---|---|---|---|
| YOLOv5su | 9.1 | 24.0 | 12.24 | 0.974 | 0.889 | 0.930 | 0.953 | 0.751 |
| YOLOv6s | 17.2 | 44.2 | 12.26 | 0.919 | 0.945 | 0.932 | 0.960 | 0.757 |
| YOLOv7 | 36.9 | 104.7 | 29.52 | 0.962 | 0.895 | 0.927 | 0.951 | 0.719 |
| YOLOv8s | 11.2 | 28.6 | 11.39 | 0.959 | 0.910 | 0.934 | 0.958 | 0.748 |
| YOLOv9s | 7.2 | 26.7 | 22.17 | 0.952 | 0.922 | 0.936 | 0.962 | 0.761 |
| YOLOv10s | 7.2 | 21.6 | 14.19 | 0.914 | 0.911 | 0.913 | 0.956 | 0.747 |
| YOLOv11s | 9.4 | 21.5 | 13.47 | 0.952 | 0.902 | 0.927 | 0.949 | 0.753 |
| YOLOv12s | 9.3 | 21.4 | 16.74 | 0.950 | 0.910 | 0.930 | 0.957 | 0.759 |
粗体为组内最优:速度取 YOLOv8s(11.39 ms),综合精度与高 IoU 定位取 YOLOv9s(F1=0.936,mAP50=0.962,mAP50–95=0.761)。
图 5-1 n 组 F1 与 mAP50 双条形图

图 5-2 s 组 F1 与 mAP50 双条形图

部署与改进建议:结合上面的曲线与混淆矩阵,Web 端默认采用 Conf=0.48、IoU=0.6、类别筛选=Tumor;对低对比与超小目标,建议打开 小目标增强支路(高分辨率 P3/可选 P2) 并在视频检测页启用 “低阈值回放 + 逐帧导出”;若追求更高定位质量(mAP50–95),优先选择 YOLOv11n/YOLOv9s 并在权重页开启 INT8 校准 与 分层 NMS(或 NMS-free 配置下的 Top-K 聚合) 以降低 PostTime。综合而言,YOLOv8n/YOLOv6s 适合作为默认实时档,YOLOv12n/YOLOv9s 作为高精度档,二者在平台中的“模型热切换”可无缝对比并以 CSV/带框结果一键导出,支撑临床复核与科研报告生成。
6. 系统设计与实现
6.1 系统设计思路
系统采用分层架构以支撑实时、多源与可追溯目标:表现与交互层(浏览器端)负责页面渲染、会话保持与 UI 事件;业务与会话管理层(Flask)统一处理认证、参数同步与任务编排;推理与任务调度层以 SocketIO 驱动的异步队列承载图片/视频/摄像头三类请求,完成预处理、YOLO 推理与后处理统计;数据持久化层以 SQLite 记录任务元数据、指标与导出路径,文件侧按会话与批次归档。整条链路遵循“多源输入 → 预处理(归一化/letterbox/尺度记录)→ YOLO 推理(ONNX/TensorRT 可选)→ 后处理与统计(NMS/Top-K、计数、时序指标)→ 浏览器端可视与交互闭环”的数据流。
为保证实时性与一致性,平台在视频与摄像头通道采用“同步双帧”机制:同一时间戳的原始帧与检测帧在服务端以序列号绑定并通过 SocketIO 房间推送到前端两块画布,缓解乱序与卡顿;参数侧(Conf、IoU、类别筛选、模型选择)通过会话上下文集中管理,所有标签页共享同一会话镜像并以乐观并发与版本戳解决写入冲突。任务调度层将长耗时操作(模型加载、INT8 校准、视频转码与打包下载)从主循环剥离为后台任务,前端以进度条与可中止控制实现“暂停/继续/停止/关键帧跳转”的低延迟体验。
系统强调可扩展与可审计:权重热切换在模型管理器中以“别名–版本–时间戳”注册并广播类别表的刷新事件,导出中心集中管理 CSV、带框图片/视频与日志,支持按文件名或批次高亮与一键下载;数据库迁移工具在版本升级时自动对齐字段与索引,保证历史任务可读可复核。监控接口暴露端到端延迟、GPU/CPU 利用率与帧丢失率,异常触发自动降帧或切换轻量模型,从而在临床高并发或资源受限环境下维持稳定服务。
图 6-1 系统流程图

图注:系统自初始化起对外仅暴露 SocketIO 网关;多源输入经预处理后进入推理与后处理,结果通过双帧绑定同步回前端,同时写入 SQLite 与文件归档,保证实时显示与离线可追溯并行完成。
图 6-2 系统设计框图

图注:四层结构分别承载“交互/会话”“编排”“推理/调度”“数据”,模块之间通过 SocketIO/函数调用与事件总线协同;权重管理与监控接口横切于推理与数据层,支撑热切换与审计。
6.2 登录与账户管理

登录流程说明:用户打开登录界面后,若为新用户则完成表单校验并以哈希+盐化方式持久化口令,再返回登录;已有账号的用户在通过速率限制与失败计数保护的校验后创建会话,系统为该浏览器分配房间与令牌并回填个性化配置与历史记录,从而进入主界面(概览)。会话期间,资料修改在权限与审计约束下实时生效,结果与设置与检测任务共用同一持久化结构;注销或切换账号会立即失效令牌并清理前端缓存,确保与主检测流程的安全衔接与一致体验。
代码下载链接
如果您希望获取博客中提及的完整资源包,包含测试图片、视频、Python文件(*.py)、网页配置文件、训练数据集、代码及界面设计等,可访问博主在面包多平台的上传内容。相关的博客和视频资料提供了所有必要文件的下载链接,以便一键运行。完整资源的预览如下图所示:


资源包中涵盖了你需要的训练测试数据集、训练测试代码、UI界面代码等完整资源,完整项目文件的下载链接可在Gitee项目中找到➷➷➷
完整项目下载、论文word范文下载与安装文档:https://deeppython.feishu.cn/wiki/U3PJwPmNziawOck6owjc2YyMnWf
讲解视频地址:https://www.bilibili.com/video/BV1sFD9BSEBm/
完整安装运行教程:
这个项目的运行需要用到Anaconda和Pycharm两个软件,下载到资源代码后,您可以按照以下链接提供的详细安装教程操作即可运行成功,如仍有运行问题可私信博主解决:
- Pycharm和Anaconda的安装教程:https://deepcode.blog.csdn.net/article/details/136639378;
软件安装好后需要为本项目新建Python环境、安装依赖库,并在Pycharm中设置环境,这几步采用下面的教程可选在线安装(pip install直接在线下载包):
- Python环境配置教程:https://deepcode.blog.csdn.net/article/details/136639396;
7. 结论与未来工作
本文围绕癌症影像的实时检测需求,构建了基于 Flask + SocketIO 的网页平台与 YOLOv5–YOLOv12 八种模型的统一训练、推理与可视化闭环;在 3076 幅数据上,nano/small 两个规格均实现了接近临床可用的速度—精度平衡:典型端到端延迟约 10–16 ms(640 输入),综合 F1≈0.93、mAP50≈0.96,且在双画面联动、进度控制、CSV/带框一键导出与 SQLite 入库方面实现了工程级可追溯与复核能力。实验也揭示当前瓶颈主要来自单类长尾与小目标、边界低对比与类内近邻干扰,导致高 IoU 区间的定位质量仍有提升空间;从系统角度看,模型热切换与权重版本化、参数会话同步与“同步双帧”机制可稳定支撑图片/视频/摄像头三源实时推理,但在高并发与弱算力环境下仍需要更积极的资源自适应策略。
未来工作将沿三条主线推进:模型侧,将引入更强的轻量化与知识蒸馏、结构化剪枝与量化校准,探索 NMS-free 训练在单类小目标上的阈值与查询自适应;拓展到检测-分割联合学习与弱监督/半监督框架,增加对极小病灶与不确定边界的显式建模,并尝试多模态融合(内镜/超声/病理WSI)与时序建模以降低瞬时反光与运动伪影的误检;系统侧,将容器化部署与分布式任务队列纳入默认配置,补充 WebRTC 实时推流、边缘端与浏览器端推理(WASM/ONNX Runtime Web)以拓展低延迟场景,同时完善角色权限、审计与多租户支持并对接 DICOM/PACS;数据侧,将建设主动学习与持续标注流水线,完善数据治理、漂移监测与基于案例的误检分析看板,推动“采集—训练—评估—上线—反馈”的持续闭环。总体而言,平台已具备将最新 YOLO 实现快速落地到癌症影像实时检测的能力,并为后续在更多器官部位与更复杂临床流程中的迁移与规模化部署奠定了可靠的工程与方法论基础。
参考文献(GB/T 7714)
1 CAMELYON16 Grand Challenge.Home-CAMELYON16[EB/OL].2025-12-28访问.(Camelyon16)
2 Ehteshami Bejnordi B, et al.Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer[J].JAMA, 2017.(JAMA Network)
3 Jha D, et al.Kvasir-SEG: A Segmented Polyp Dataset[J].MMM 2020.(arXiv)
4 Hassan C, et al.Performance of AI in Colonoscopy for Adenoma/Polyp Detection: Systematic Review and Meta-analysis[J].Gastrointest Endosc, 2020.(GIE Journal)
5 Carion N, et al.End-to-End Object Detection with Transformers[EB/OL].arXiv:2005.12872, 2020.(arXiv)
6 Zhao Y, et al.DETRs Beat YOLOs on Real-time Object Detection (RT-DETR)[EB/OL].arXiv:2304.08069, 2023.(arXiv)
7 Lin T-Y, et al.Focal Loss for Dense Object Detection[C]//ICCV, 2017.(CVF Open Access)
8 Tian Z, et al.FCOS: Fully Convolutional One-Stage Object Detection[C]//ICCV, 2019.(arXiv)
9 Zhou X, et al.Objects as Points[EB/OL].arXiv:1904.07850, 2019.(arXiv)
10 Rezatofighi H, et al.GIoU: A Metric and a Loss for Bounding Box Regression[C]//CVPR, 2019.(CVF Open Access)
11 Zheng Z, et al.Distance-IoU Loss: Faster and Better Learning for BBox Regression[C]//AAAI, 2020.(AAAI Open Access Journal)
12 Zhang Y-F, et al.Focal and Efficient IoU Loss for Accurate BBox Regression[EB/OL].arXiv:2101.08158, 2021.(arXiv)
13 Li C, et al.YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[EB/OL].arXiv:2209.02976, 2022.(arXiv)
14 Wang C-Y, Bochkovskiy A, Liao H-Y M.YOLOv7[EB/OL].arXiv:2207.02696, 2022.(arXiv)
15 Wang A, et al.YOLOv10: Real-Time End-to-End Object Detection[C]//NeurIPS 2024.(NeurIPS Proceedings)
16 Ultralytics.YOLO11: Future of AI Vision[EB/OL].2024-09-30.2025-12-28访问.(Ultralytics)
17 Tian Y, Ye Q, Doermann D.YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL].arXiv:2502.12524, 2025.(arXiv)
18 ONNX Runtime.Quantize ONNX Models[EB/OL].2025-12-28访问.(ONNX Runtime)
19 NVIDIA.TensorRT INT8 Calibrator API Docs[EB/OL].2025-12-28访问.(NVIDIA Docs)
20 Ultralytics.YOLO11 on NVIDIA Jetson using DeepStream & TensorRT[EB/OL].2025-12-28访问.(Ultralytics Docs)
21 赵庆华, 等.基于深度学习的 YOLO 目标检测综述[J].电子与信息学报, 2022.(jeit.ac.cn)
22 牟奕辰, 等.深度学习在结肠息肉分割中的应用综述[J].计算机工程与应用, 2024.(CEA)
23 王建, 等.人工智能在结直肠息肉性质鉴别中的应用进展[J].中华消化内镜杂志, 2020.(Yiigle)
说明:以上每句均严格“单句单引”;中文文献覆盖了目标检测综述与内镜应用进展;关键指标均可在对应来源中追溯。

浙公网安备 33010602011771号