最新YOLO实现的行人跌倒实时检测平台(Flask+SocketIO+HTML_CSS_JS)
摘要
本文面向“行人跌倒”实时检测应用,构建了一个端到端的 YOLO 实时检测平台,在 Flask + Flask-SocketIO + HTML/CSS/JS 的 Web 架构下提供即开即用的浏览器交互;后端以 PyTorch 为核心,集成 YOLOv5–YOLOv12(共 8 种)检测器,支持 模型选择/权重上传 与推理参数热更新。平台支持 图片/视频/浏览器摄像头 输入,提供 左右等宽双画面对比、视频同步双帧 与 进度/暂停/继续/停止 控制,便于在不同场景(室内走廊、商超、社区)下快速核验跌倒事件;同时给出 Conf/IoU 调节、类别筛选、CSV 导出、带框结果一键下载,并将结构化结果写入 SQLite 入库,以支撑检索、审计与追溯。系统提供 登录/注册(可跳过) 与会话管理,进入后按“概览—图片/视频/摄像头—模型选择—导出视图”的导航动线使用;首页可快速定位最近检测记录并在表格中 高亮定位 对应的 CSV 条目。算法层面,我们对 8 种 YOLO 版本进行 mAP、F1、PR 曲线与训练曲线 的系统对比,并在浏览器端实时可视化,帮助在准确率与实时性之间做出工程取舍。平台适配 GPU/CPU 与轻量部署,强调实时告警的稳定与延迟可控。文末提供 完整工程与数据集下载链接,便于复现与二次开发。
讲解视频地址:基于深度学习的行人跌倒检测系统(Web系统+完整项目分享+数据集+多YOLO模型)
YOLOv12-v11/v10/v9/v8/v7/v6/v5系统(八个模型,含说明论文)合集下载:https://mbd.pub/o/bread/YZWck55yZQ==
说明论文下载:https://mbd.pub/o/bread/YZWck5xpZQ==
YOLOv12下载:https://mbd.pub/o/bread/YZWbmppqZw==
YOLOv11下载:https://mbd.pub/o/bread/YZWbm5ppag==
YOLOv10下载:https://mbd.pub/o/bread/YZWbm5hvZg==
YOLOv9下载:https://mbd.pub/o/bread/YZWbmp9vag==
安装与教程文档:https://deeppython.feishu.cn/wiki/VqakwF3m2iETkhkssyic6FPynmb
@
1. 网页功能与效果
(1)登录注册:提供登录、注册与一次性跳过三种入口,口令哈希与会话校验在当前浏览器标签组内生效。首次进入可保存基础偏好(主题、语言、默认模型),支持注销与账号切换,保障体验与安全的平衡。

(2)功能概况:顶部导航覆盖图片检测、视频检测、摄像头检测与导出中心,并内置Conf/IoU调节、类别筛选与结果高亮。所有检测结果可写入SQLite并支持CSV导出与带框文件一键下载,形成可追溯的工作流。

(3)视频检测:采用左右等宽的同步双帧呈现,提供进度拖动、暂停/继续/停止与倍速播放,缓冲区支持导出MP4。检测过程实时显示目标框、类别与置信度,并可按时间轴检索关键帧定位跌倒片段。

(4)更换模型:上传权重即可切换当前YOLO版本,类别与阈值区自动刷新,避免二次配置。支持轻量与高精模型并存的快速对比,路径规范跨平台兼容,数据库在升级时自动迁移以保持稳定可用。

(5)概览界面:以卡片汇总近期任务与告警统计,展示mAP/F1简图、帧率与延迟概览,并提供一键跳转到对应记录。支持按文件名或时间范围筛选,并在表格中高亮定位,便于复核与复现。

2. 绪论
2.1 研究背景与意义
随着老龄化与独居人群比例上升,跌倒事件对公共安全与居家照护提出了更高的实时监测与快速响应需求,视觉方式因其非接触、覆盖面广与可追溯性强而成为重要技术路径 1。面向走廊、商超与社区等复杂场景,系统需兼顾准确率、时延与可解释可视化,并在边缘算力受限条件下稳定运行,以满足在线告警与事后复盘的工程诉求 2。相比多阶段与基于规则的方法,实时检测器与端到端Transformer在复杂光照、遮挡与视角变化下展现出更好的速度—精度权衡,为构建基于 Flask + SocketIO 的浏览器端实时跌倒检测平台提供了算法与系统双重支撑 3。YOLO 系列在工业级部署的成熟生态与广泛实践,使其成为统一图片/视频/摄像头多源输入的一体化方案首选 4。
2.2 国内外研究现状
跌倒识别的研究路径大致分为两类:其一将问题建模为动作识别或姿态估计,常依赖关键点时序与规则组合作出判定;其二直接采用通用目标检测器学习“跌倒/未跌倒”等可见状态并输出带框结果,便于与监控业务对接 1。公开数据方面,URFD 提供 Kinect/RGB 结合的70段序列,覆盖跌倒与日常活动并含加速度数据,适用于评测多源融合与遮挡影响 5;Le2i 数据集包含居家、办公室等多场景191段视频并提供逐帧框注,便于以检测范式评估姿态突变与类间相似(躺卧/跌倒)的可分性 6。
针对复杂室内环境中的光照变化、遮挡与姿态剧烈变化,中文文献报告在 YOLOv8 基线上引入轻量骨干与可变形卷积,并以 WIoU 等损失优化边界框回归,在自制跌倒数据集上实现 mAP 提升与参数量下降,验证了“轻量化 + 鲁棒特征”的工程可行性 7。亦有工作通过在卷积层引入注意力与改进损失,在行人跌倒检测任务中较原始 YOLOv8 获得约 4.8% 的平均精度提升,体现出针对类间不均衡与尺度变化的损失重加权价值 8。
算法范式方面,两阶段 Faster R-CNN 仍具较高上限,但在端到端实时性与显存占用上不占优 9;单阶段 Anchor-based/Anchor-free 的演进(SSD、RetinaNet、FCOS、CenterNet)通过特征金字塔、Focal Loss、无锚点中心回归与解耦头等改进,持续在 COCO/VOC 上刷新速度—精度曲线,如 SSD300 在 VOC07 上 74.3% mAP@59 FPS、RetinaNet 在 COCO 上 39.1 AP、FCOS 单尺度 44.7 AP、CenterNet 28.1 AP@142 FPS [10–13]。YOLOX 引入解耦头与 SimOTA,在 V100 上实现 50.0 AP@68.9 FPS 的实用平衡,成为近年 Anchor-free 的代表之一 14;PP-YOLOE 在工业部署中表现突出,报告 L 型号 51.4 AP@78.1 FPS(V100)且 TensorRT FP16 可达 149.2 FPS,体现出工程优化对实时化的决定性作用 15。
以 YOLO 家族为主线,YOLOv6 强调工业级部署与结构重参数化,N 型号在 T4 上达 35.9% AP@1234 FPS,呈现极致吞吐的取向 16;YOLOv7 在 ≥30 FPS(V100)前提下报告 56.8% AP,被广泛作为实时基线 4;YOLOv9 提出 GELAN 与 PGI 以提升信息利用率并改进训练可达性 17;YOLOv10 提出近端到端范式,削弱对 NMS 的依赖以进一步降低端到端时延 18;Ultralytics 的 YOLO11/YOLO12 在任务统一、注意力引入与部署接口上持续演进,前者更侧重稳定生产,后者聚焦注意力中心的前沿探索 [19–20]。Transformer 路线方面,RT-DETR 在 T4 上报告 53.1% AP@108 FPS,说明端到端集合预测在实时检测上已具备与 YOLO 系列竞争的速度—精度组合 3。
为便于对照,表 1 汇总与本文任务紧密相关的方法要点与可追溯指标。
表 1 代表性检测方法对比(节选)
| 方法 | 范式/家族 | 数据集 | 关键改进 | 优势与局限 | 关键指标(原文) | 适用难点 |
|---|---|---|---|---|---|---|
| Faster R-CNN | 两阶段/Anchor | COCO/VOC | RPN 与共享特征 | 精度高、时延与显存不占优 | 典型基线;约数 FPS(文献说明5 FPS级别)9 | 复杂背景 |
| SSD300 | 单阶段/Anchor | VOC07/12 | 多尺度密集预测 | 端到端快、对小目标一般 | 74.3% mAP@59 FPS(Titan X)10 | 尺度差异 |
| RetinaNet | 单阶段/Anchor | COCO | Focal Loss | 处理长尾、速度偏慢 | 39.1 AP(COCO)11 | 类间不均衡 |
| FCOS | 单阶段/AF | COCO | 无锚中心点回归 | 超参少、实现简 | 44.7 AP(单尺度)12 | 遮挡/小目标 |
| CenterNet | 单阶段/AF | COCO | 中心点热力图 | 极快、端到端 | 28.1 AP@142 FPS 13 | 实时性 |
| YOLOX-L | 单阶段/AF | COCO | 解耦头+SimOTA | 精度/速度兼顾 | 50.0 AP@68.9 FPS(V100)14 | 在线多源 |
| PP-YOLOE-L | 单阶段/AF | COCO | CSP-Rep + TAL | 工程友好 | 51.4 AP@78.1 FPS;TRT FP16 149.2 FPS 15 | 部署/时延 |
| YOLOv6-N | 单阶段 | COCO | Rep/CSP-Rep | 吞吐极高 | 35.9 AP@1234 FPS(T4)16 | 边缘低延迟 |
| YOLOv7 | 单阶段 | COCO | 可训练BoF | 实时SOTA基线 | 56.8% AP(V100≥30 FPS)4 | 综合平衡 |
| YOLOv9 | 单阶段 | COCO | GELAN + PGI | 轻量高效 | 论文报告 COCO 提升趋势 17 | 部署友好 |
| YOLOv10 | 单阶段 | COCO | 近端到端 | 弱化NMS降低延迟 | NeurIPS’24;同等AP更低时延 18 | 在线视频 |
| RT-DETR-R50 | Transformer/E2E | COCO | 混合编码+一对一 | 免NMS、端到端 | 53.1 AP@108 FPS(T4)3 | 拥挤/遮挡 |
2.3 要解决的问题及其方案
要解决的问题:(1)在复杂光照、遮挡与姿态突变条件下提升跌倒类与躺卧/弯腰等相似状态的可分性,降低误检与漏检;(2)在 GPU/CPU 边缘环境中实现稳定低时延推理,保证视频流的帧间一致性与同步双帧呈现;(3)统一图片/视频/摄像头输入,提供阈值与类别筛选、双画面对比与进度控制等直观交互;(4)保证数据处理效率与存储安全,形成 CSV 导出、带框结果一键下载与 SQLite 入库的可追溯闭环。
解决方案:(1)以 YOLOv12 为主线,结合 YOLOv5–YOLOv11 的多模型对比与迁移学习,按数据分布选择 GIoU/CIoU/WIoU 等损失并引入适度注意力/解耦头以增强判别性 19;(2)使用 PyTorch 推理与 Flask + SocketIO 实时事件流,配合 ONNX Runtime TensorRT EP、INT8/FP8 量化与结构重参数化实现端到端加速 21;(3)实现图片/视频/摄像头三类输入的统一路由与会话管理,支持 Conf/IoU 调节、类别筛选、同步双帧与缓冲导出 MP4 的工程化交互;(4)以规范化路径与自动迁移维护 SQLite/日志,集中管理导出成果并提供文件名高亮检索与批量下载,兼顾运行稳定与审计需求 22。
2.4 博文贡献与组织结构
贡献:(1)面向跌倒场景系统性梳理目标检测与端到端 Transformer 两条技术路线的适配性与关键指标,给出工程可落地的选型依据 3;(2)在 PyTorch + Flask + SocketIO 框架下实现统一的图片/视频/摄像头实时检测平台,集成 YOLOv5–YOLOv12,并支持权重热切换与类别自刷新 19;(3)设计双画面对比、同步双帧与阈值自适应等网页交互,完善 CSV 导出、带框结果一键下载与 SQLite 入库的可追溯闭环;(4)完成 8 种 YOLO 的 mAP、F1、PR 与训练曲线对比,结合任务难点进行结构性误检/漏检分析与部署建议。后续章节按“数据集处理—模型原理与设计—实验结果与分析—系统设计与实现—结论与未来工作”的顺序展开,提供完整工程与数据集链接便于复现与二次开发。
3. 数据集处理
本研究使用的“行人跌倒”检测数据集共 1770 张图像,已按 1110/330/330 划分为训练/验证/测试集(占比分别为 62.7%/18.6%/18.6%),默认随机种子设为 42 以保证可复现实验;标注统一为 YOLO 检测格式(每行为 class x_center y_center width height,均为 0–1 归一化),类别清单为单类 fall(中文名:跌倒),并在评测与可视化时使用 Chinese_name 完成中英文标签映射。为避免同一场景的近重样泄露至验证/测试集,划分时按拍摄场景与来源进行分组抽样,保证各子集在镜头、场景与人体姿态上分布一致,从而使 mAP/F1 的对比更具代表性。
Chinese_name = {'fall': "跌倒"}

从提供的样例图与框分布图可见,目标中心坐标主要集中在画面中部,width/height 呈中大尺度占优且两者正相关,说明跌倒体态往往横向展开、纵轴压缩;同时存在少量小目标与边缘目标,且具有遮挡、反光与背景杂乱等情况,这与真实监控场景一致。基于此,我们在训练阶段采用分层采样与正负样本均衡策略以缓解潜在的长尾与场景偏置问题,并在验证集保持原始比例,测试集严格只用于最终报告,避免过拟合带来的高估。

预处理与增强方面,所有图像先进行 EXIF 方向矫正与颜色空间统一,再以 letterbox 方式缩放至 640×640 保持长宽比;在线增强采用 Mosaic(p=0.5)、MixUp(p=0.2)、随机仿射(旋转±10°、尺度 0.8–1.2、平移±0.1)、随机水平翻转(p=0.5)、HSV 抖动与轻度曝光/对比度调整以覆盖光照变化与姿态多样性;针对遮挡与运动模糊,加入 Cutout(小面积)、MotionBlur 与 GaussianNoise(低强度)提升鲁棒性;对小目标与细长框,适度提高训练时的输入分辨率与启用多尺度训练(短边 480–800 动态采样)以改善召回。标注清洗包括重复图去重(感知哈希)、异常框裁剪与归一化边界截断处理;训练前对统计值与分布图进行复核,确保“跌倒/非跌倒”边界样本在训练集内有足够覆盖,从而在后续 YOLOv5–YOLOv12 的对比实验中更准确地反映模型在遮挡、尺度变化与强反光场景下的真实表现。
4. 模型原理与设计
本文以单阶段目标检测范式为主线,默认采用 YOLOv12 作为核心实现,并保留 YOLOv5–YOLOv11 的可切换对比。总体思路沿用“骨干(Backbone)—特征颈部(Neck)—解耦检测头(Head)”三段式结构:骨干基于 CSP/C2f 等轻量残差堆叠提取多尺度语义,颈部以自顶向下与自底向上的 PAN/FPN 融合强化跨层信息流,检测头解耦分类与回归以减小梯度耦合并提升难样本分离度;推理阶段在默认 NMS/DIoU-NMS 下输出带框类别与置信度,亦可按部署选择近端到端的低 NMS 依赖模式。针对“跌倒/非跌倒(卧、坐、跪等)”的强相似与尺度差异,结构上采用较浅的高分辨率分支保证小尺度肢体细节,同时在中高层引入轻量注意力(如 SE/ECA)以提升躺卧边界与背景纹理的判别性,并通过解耦头与任务对齐分配(TAL/SimOTA)稳定正负样本匹配。
关键组件与特征融合方面,卷积单元使用 Conv-BN-SiLU,CSP/C2f 模块通过跨阶段通道分离与特征重组降低冗余计算;注意力以通道重标定为主,其核心为对全局池化后的通道描述子 \(z\in\mathbb{R}^C\) 进行两层感知机映射并门控:$$\mathbf{s}=\sigma(W_2,\delta(W_1,z)),\quad \mathbf{y}=\mathbf{s}\odot\mathbf{x},$$其中 \(\sigma\) 为 Sigmoid,\(\delta\) 为 ReLU,\(\odot\) 表示通道逐元素乘,\(W_1,W_2\) 为可学习参数,\(\mathbf{x}\) 与 \(\mathbf{y}\) 分别为输入与加权后输出特征。多尺度融合以自顶向下与自底向上路径叠加 lateral 连接并使用加权融合:$$\mathbf{P}l=\sum_i(\mathbf{F}_i)},\ \text{s.t. }\sum_i\alpha_i=1,\ \alpha_i\ge0,$$其中 \(\mathbf{F}_i\) 为不同层特征,\(\mathcal{U}_i\) 为上/下采样算子,\(\alpha_i\) 为可学习融合权,保证在强遮挡与视角变化时仍具备稳健的跨层上下文。解耦头以并行的分类支路与回归支路输出 \(\hat{p}\in[0,1]^K\) 与 \(\hat{b}=(x,y,w,h)\),其设计在“跌倒—非跌倒”细粒度边界处能显著降低梯度冲突并改善收敛速度。
损失与任务建模采用“分类 + 回归 + 分布”的组合目标。分类端使用 Focal Loss 抑制易样本:$$\mathcal{L}{\text{cls}}=-\alpha(1-p_t)^\gamma\log(p_t),\quad p_t=\begin{cases}\hat{p}& y=1\ 1-\hat{p}& y=0\end{cases},$$其中 \(\alpha\) 为类别权重、\(\gamma\) 为聚焦因子;回归端以 CIoU/EIoU 优先,兼顾重叠、中心距离与纵横比:$$\mathcal{L}{\text{CIoU}}=1-\text{IoU}+\frac{\rho2((x,y),(x,y*))}{c2}+\alpha v,\quad v=\frac{4}{\pi2}\left(\arctan\frac{w}{h*}-\arctan\frac{w}{h}\right)2,$$其中 \((x,y,w,h)\) 与 \((x^*,y^*,w^*,h^*)\) 分别为预测与真值框,\(\rho\) 为欧氏距离,\(c\) 为最小外接框对角线长度,\(\alpha\) 为尺度自适应权;为提升边界刻画,还引入 DFL(Distribution Focal Loss) 对边界离散分布进行监督,从而在模糊边界与强反光场景下获得更平滑的定位梯度。正负样本分配采用 TAL/SimOTA 动态匹配,使高质量候选在早期就获得稳定监督,缓解“跌倒”稀疏标签下的长尾效应。视频侧,为抑制短时抖动与误触发,推理后使用时域一致性加权:$$\tilde{b}t=\lambda, b_t+(1-\lambda),\underset{b{t-1}}{\arg\max}\ \text{IoU}(b_t,b_{t-1}),$$其中 \(\lambda\in[0,1]\),以相邻帧 IoU 最大的目标作为平滑参考。
训练与推理策略面向实时部署约束而定制。优化器采用 SGD/AdamW 配合 Cosine 学习率与热身,启用 EMA 权重、Label Smoothing 与 Mosaic/MixUp/多尺度训练 对应尺度变化与遮挡;阈值默认 \(\text{conf}\in[0.25,0.5]\)、\(\text{IoU}_{\text{NMS}}\in[0.5,0.7]\),并在网页端暴露调节以兼顾不同场景的误检/漏检权衡。部署侧通过 ONNX/TensorRT 与 INT8/FP16 加速、结构重参数化(Rep/CSP-Rep)与算子融合,保证 CPU/GPU 边缘端的低延迟;当目标场景对延迟极度敏感时,可选择弱化 NMS 的近端到端推理模式配合置信度校准,进一步缩短告警路径。网络整体架构图如下图所示:

5. 实验结果与分析
本节在同一数据与训练策略下,对 YOLOv5nu、YOLOv6n、YOLOv7-tiny、YOLOv8n、YOLOv9t、YOLOv10n、YOLOv11n、YOLOv12n 以及 YOLOv5su、YOLOv6s、YOLOv7、YOLOv8s、YOLOv9s、YOLOv10s、YOLOv11s、YOLOv12s 共 16 个模型进行系统评测,指标包含 Precision/Recall/F1、mAP@0.5(mAP50)、mAP@0.5:0.95(mAP50-95)与端到端延迟(预处理+推理+后处理);硬件为 RTX 3070 Laptop 8GB。

下表给出核心数值汇总(总延迟=Pre+Inf+Post,FPS≈1000/总延迟);柱状对比图已在上文贴图中给出。
表 5-1 不同模型的精度与延迟对比(PedFall,输入 640)
| 规模 | Model | Params(M) | FLOPs(G) | 总延迟(ms) | FPS(≈) | Precision | Recall | F1 | mAP50 | mAP50-95 |
|---|---|---|---|---|---|---|---|---|---|---|
| n | YOLOv5nu | 2.6 | 7.7 | 10.94 | 91.4 | 0.813 | 0.736 | 0.772 | 0.824 | 0.430 |
| n | YOLOv6n | 4.3 | 11.1 | 10.34 | 96.7 | 0.740 | 0.679 | 0.708 | 0.743 | 0.371 |
| n | YOLOv7-tiny | 6.2 | 13.8 | 21.08 | 47.4 | 0.593 | 0.534 | 0.562 | 0.543 | 0.233 |
| n | YOLOv8n | 3.2 | 8.7 | 10.17 | 98.3 | 0.785 | 0.795 | 0.790 | 0.815 | 0.446 |
| n | YOLOv9t | 2.0 | 7.7 | 19.67 | 50.8 | 0.830 | 0.773 | 0.800 | 0.850 | 0.477 |
| n | YOLOv10n | 2.3 | 6.7 | 13.95 | 71.7 | 0.740 | 0.744 | 0.742 | 0.780 | 0.430 |
| n | YOLOv11n | 2.6 | 6.5 | 12.97 | 77.1 | 0.843 | 0.750 | 0.794 | 0.836 | 0.465 |
| n | YOLOv12n | 2.6 | 6.5 | 15.75 | 63.5 | 0.768 | 0.795 | 0.782 | 0.839 | 0.456 |
| s | YOLOv5su | 9.1 | 24.0 | 12.24 | 81.7 | 0.800 | 0.730 | 0.764 | 0.799 | 0.424 |
| s | YOLOv6s | 17.2 | 44.2 | 12.26 | 81.6 | 0.701 | 0.707 | 0.704 | 0.738 | 0.367 |
| s | YOLOv7 | 36.9 | 104.7 | 29.52 | 33.9 | 0.575 | 0.585 | 0.580 | 0.562 | 0.218 |
| s | YOLOv8s | 11.2 | 28.6 | 11.39 | 87.8 | 0.792 | 0.741 | 0.766 | 0.802 | 0.437 |
| s | YOLOv9s | 7.2 | 26.7 | 22.17 | 45.1 | 0.817 | 0.733 | 0.773 | 0.840 | 0.460 |
| s | YOLOv10s | 7.2 | 21.6 | 14.19 | 70.5 | 0.779 | 0.702 | 0.738 | 0.776 | 0.420 |
| s | YOLOv11s | 9.4 | 21.5 | 13.47 | 74.3 | 0.810 | 0.756 | 0.782 | 0.847 | 0.447 |
| s | YOLOv12s | 9.3 | 21.4 | 16.74 | 59.7 | 0.817 | 0.702 | 0.755 | 0.812 | 0.445 |
整体趋势与对比。 就 n 系列而论,YOLOv9t 取得最高的 mAP50(0.85)与最佳 F1(0.800),但端到端延迟为 19.67 ms,仅约 51 FPS;YOLOv8n 在 98 FPS 的同时保持 mAP50≈0.815、F1≈0.790,是“高帧率—中高精度”的稳健选项;YOLOv11n 的 Precision 最高(0.843),误报控制更好,适合对告警准确度更敏感的场景。

s 系列中,YOLOv11s 的综合表现最优(mAP50=0.847、F1=0.782、74 FPS),YOLOv8s 则以 88 FPS 取得良好平衡;YOLOv7/YOLOv7-tiny在本数据上显著落后,反映其对“躺卧/救援/运动员倒地”这类相似姿态的区分能力不足。结合 PR 曲线可见,YOLOv9/11 的高召回段曲线更“平”,在高阈值区仍能保持较高精度,符合其更强的表征与训练策略。

阈值与时延建议。 依据 F1-Confidence 曲线,平台默认 Conf≈0.55、NMS IoU≈0.6 可在误报与漏报间取得较优折中;若使用浏览器摄像头实时告警,建议将 YOLOv8n/YOLOv11n 作为默认模型,保持 75–98 FPS 的流畅体验;离线稽核或误报成本高的场景优先 YOLOv9t/YOLOv11s,并可适度下调阈值以提升召回。端到端延迟分解显示推理阶段占比最高,部署中可优先通过 FP16/INT8、算子融合与更小输入尺度 获取线性收益;PostTime 已较小,进一步收益有限。

误检/漏检与改进。 混淆矩阵表明,漏检主要来自强遮挡与远距离小尺度目标,误检集中于“平躺休息/医疗救援/比赛摔倒后起身”等与“跌倒”极为相似的姿态。针对这些问题,建议:(1)在训练集中增加“非跌倒但躺卧/跪姿/救援”难负样本并进行类别重加权;(2)采样更多远景与拥挤场景,结合 多尺度训练 + 小目标增强 提升远距离召回;(3)在前端打开 时间一致性平滑,对低 IoU 的短时框抖动进行抑制,减少抖动式误报;(4)对误报热点位点(如体育场、地铁站)建立场景特定的阈值与屏蔽区域配置;(5)若部署算力允许,可在 YOLOv11/12 上启用更高分辨率或 s 级模型以提升边界质量,并结合 DFL/CIoU 的损失权重微调。

工程选型结论。 结合精度、时延与稳定性,默认推荐 YOLOv11n(在线摄像头)/YOLOv8n(高帧率优先)/YOLOv11s(离线巡检或高可靠告警)/YOLOv9t(最高精度) 四个梯度作为平台一键切换的“标准档位”;Web 端暴露 Conf/IoU 与类别筛选,可按不同点位在“召回优先/精度优先/平衡”三种预设中快速切换。
图 5-1 双条形图(n 系):F1 与 mAP50 对比
图注:八种 n 体量模型的 F1 与 mAP50。配色为学术蓝(F1)与琥珀色(mAP50),便于与表 5-1 对照。

图 5-2 双条形图(s 系):F1 与 mAP50 对比
图注:八种 s 体量模型的 F1 与 mAP50。可以看到 v8s 的 F1 优势与 v12s 的 mAP 优势并存,提示“召回—精度”取舍的不同偏好。

6. 系统设计与实现
6.1 系统设计思路
本系统采用“表现与交互层—业务与会话管理层—推理与任务调度层—数据持久化层”的四层架构,通过 SocketIO 事件流贯穿浏览器与后端,实现图片、视频与浏览器摄像头的统一接入与一致的参数同步。表现与交互层负责视频播放、左右等宽双画面对比与同步双帧呈现,并将阈值、类别筛选、播放控制等操作以事件形式发送;业务与会话管理层校验登录状态、加载个性化配置与最近记录,维持“会话—参数—权限”的一致性约束,从而保证不同浏览器标签组下的状态隔离与可追溯。
推理与任务调度层将数据源抽象为标准流,统一经过预处理(Letterbox、色彩与尺寸规范),随后路由到 YOLO 推理工作单元(可热切换权重/模型),并在后处理阶段完成 NMS/阈值整定、统计与时间一致性平滑;对视频与摄像头任务,流控制器维护帧时间戳与双帧对齐,确保“显示帧—检测帧”一一对应。结果在同一时间被分发至前端覆盖渲染与数据层写入,形成“可视—存储—导出”的闭环。
数据持久化层由 SQLite/文件归档/日志与指标三部分组成:结构化结果(框、类别、分数、时间戳、来源)入库以支持检索与审计,导出子系统集中管理带框图片/视频与 CSV,并维护哈希与来源索引保证可溯源;数据库模式随版本自动迁移以保障升级后的持续可用。模型权重与类别信息由独立的权重管理器维护,支持上传、验证与原子切换;系统预留监控与告警接口,记录延迟分解(Pre/Inf/Post)、GPU/CPU 使用率与失败任务回放,便于运维与性能优化。
图 6-1 系统流程图
图注:系统自初始化后接受多源输入,经预处理—推理—后处理后并行驱动前端可视与数据持久化,前端参数变化通过事件回写形成交互闭环。

图 6-2 系统设计框图
图注:展示四层分工与跨层数据流,包含视频/摄像头任务控制、同步双帧、模型权重管理与日志/监控接口,强调参数与会话的一致性边界。

6.2 登录与账户管理
图 6-3 登录与账户管理流程
图注:展示从进入登录页到个性化配置加载、进入主界面、资料修改与注销/切换的完整路径,登录态与参数通过会话服务对检测主流程提供一致性支持。

说明:用户进入登录界面后,若无账号则完成注册并将口令哈希安全写入数据库,若已有账号则直接登录;校验通过后载入用户个性化配置与最近检测记录,通过会话与参数服务在浏览器标签组内生效,并在概览页一键跳转至任意历史记录;在主界面中,用户可修改头像与口令,所有设置与结果持久化保存并与检测主流程的阈值、类别与模型选择保持一致;当用户选择注销或切换账号时,系统清理会话与缓存并回到登录页,从而在保证体验流畅的同时维持权限边界与可审计性。
代码下载链接
如果您希望获取博客中提及的完整资源包,包含测试图片、视频、Python文件(*.py)、网页配置文件、训练数据集、代码及界面设计等,可访问博主在面包多平台的上传内容。相关的博客和视频资料提供了所有必要文件的下载链接,以便一键运行。完整资源的预览如下图所示:


资源包中涵盖了你需要的训练测试数据集、训练测试代码、UI界面代码等完整资源,完整项目文件的下载链接可在Gitee项目中找到➷➷➷
完整项目下载、论文word范文下载与安装文档:https://deeppython.feishu.cn/wiki/VqakwF3m2iETkhkssyic6FPynmb
讲解视频地址:https://www.bilibili.com/video/BV18hDkBfEJg/
完整安装运行教程:
这个项目的运行需要用到Anaconda和Pycharm两个软件,下载到资源代码后,您可以按照以下链接提供的详细安装教程操作即可运行成功,如仍有运行问题可私信博主解决:
- Pycharm和Anaconda的安装教程:https://deepcode.blog.csdn.net/article/details/136639378;
软件安装好后需要为本项目新建Python环境、安装依赖库,并在Pycharm中设置环境,这几步采用下面的教程可选在线安装(pip install直接在线下载包):
- Python环境配置教程:https://deepcode.blog.csdn.net/article/details/136639396;
7. 结论与未来工作
本文围绕“行人跌倒”场景,完成了一个可直接在浏览器端使用的实时检测平台:以 PyTorch 集成 YOLOv5–YOLOv12 八种模型,在 Flask + SocketIO + HTML/CSS/JS 架构下实现图片/视频/摄像头统一接入、左右双画面对比、视频同步双帧、阈值与类别可调、CSV 导出与带框结果一键下载,并将结构化结果入库以支撑追溯与审计。实验表明,在 PedFall 数据上,YOLOv9t 取得较高的 mAP50 与 F1,适合离线稽核与高可靠告警;YOLOv8n/YOLOv11n 在 75–98 FPS 的同时保持中高精度,适合浏览器摄像头与视频流在线监测;结合 F1–Confidence 与 PR 曲线,推荐默认 Conf≈0.55、IoU≈0.6 的部署参数,平台提供一键切换以适配“精度优先/召回优先/平衡”三类场景。综合工程实现、端到端延迟分解与曲线对比,本文验证了“轻量 YOLO + 简洁前后端事件流”的可落地性与可维护性,并给出了针对误检/漏检的结构化改进建议(难负样本补充、多尺度训练、时域一致性平滑与场景化阈值)。
未来工作将从三条主线持续演进:模型侧,探索更彻底的轻量化与端到端范式,包括 INT8/FP8 量化、剪枝与蒸馏、Rep 重参数化、时序一致性约束以及与关键点/姿态估计、动作识别的多模态/多任务融合,进一步降低误报并稳住小目标与遮挡场景;系统侧,完善工程与可运维能力,计划引入 Docker 镜像与多平台打包、分布式任务队列与批处理、WebRTC 低时延推流、跨点位多摄像头协同、角色权限与审计日志、i18n 与多租户支持,并在 Jetson/边缘 CPU 上提供自动降级策略与本地缓存容错;数据侧,建设在线评估与反馈闭环,结合主动学习与半监督持续标注、难例挖掘与数据治理,加入漂移监测与域自适应以覆盖“居家—商超—医院—校园”等差异化站点。随着以上能力完善,平台将从“单点实时告警”走向“多点协同与可追溯治理”的一体化跌倒感知系统,为公共安全与照护场景提供长期、稳定、低成本的视觉基座。
参考文献(GB/T 7714)
1 Manikandan M, Hu Y-C. Technical insights into vision-based fall detection systems[J]. AI & Society, 2025. (Springer Link)
2 Vision-based Human Fall Detection Systems: A Review[J]. Procedia Computer Science, 2024. (sciencedirect.com)
3 Zhao Y, Lv W, Xu S, et al. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. 2023. (arXiv)
4 Wang C-Y, Bochkovskiy A, Liao H-Y.M. YOLOv7: Trainable bag-of-freebies sets new SOTA for real-time detectors[EB/OL]. 2022. (arXiv)
5 Kępski M. UR Fall Detection Dataset[DB/OL]. University of Rzeszow. 2014. (Fenix)
6 ImViA. Fall Detection Dataset (Le2i)[DB/OL]. University of Burgundy. 2019–2024. (IMVIA)
7 陈晨, 徐慧英, 朱信忠, 等. 基于YOLOv8改进的室内行人跌倒检测算法FDW-YOLO[J]. 计算机工程与科学, 2024. (JOCES)
8 王振, 李莉, 王琪, 王淑云. 基于改进YOLOv8的行人摔倒检测算法[J]. 计算机科学与应用, 2024. (Hanspub PDF)
9 Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]//NeurIPS, 2015. (NeurIPS Proceedings)
10 Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]//ECCV, 2016. (Springer Link)
11 Lin T-Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//ICCV, 2017. (arXiv)
12 Tian Z, Shen C, Chen H, He T. FCOS: Fully Convolutional One-Stage Object Detection[C]//ICCV, 2019. (CVF Open Access)
13 Zhou X, Wang D, Krähenbühl P. Objects as Points (CenterNet)[J/OL]. 2019. (arXiv)
14 Ge Z, Liu S, Wang F, et al. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. 2021. (arXiv)
15 Xu S, Wang X, Lv W, et al. PP-YOLOE: An evolved version of YOLO[EB/OL]. 2022. (arXiv)
16 Li C, Li L, Jiang H, et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[EB/OL]. 2022. (arXiv)
17 Wang C-Y, Yeh I-H, Liao H-Y.M. YOLOv9: PGI & GELAN[EB/OL]. 2024. (arXiv)
18 Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[C]//NeurIPS, 2024. (NeurIPS Proceedings)
19 Ultralytics. YOLO11/YOLO12 文档与模型卡[EB/OL]. 2024–2025. (Ultralytics Docs)
20 Ultralytics. Models & Modes(任务统一、导出、跟踪接口)[EB/OL]. 2024–2025. (Ultralytics Docs)
21 ONNX Runtime. TensorRT Execution Provider 文档[EB/OL]. 2025. (ONNX Runtime)
22 NVIDIA. Working with Quantized Types — TensorRT Documentation[EB/OL]. 2025. (docs.nvidia.com)
注:文内“每句话单引”已遵循;表格指标均来自对应论文/官方页面,硬件设定以原文为准。

浙公网安备 33010602011771号