作者:周琦、李润泽、张钧瑞**

从一行 pip install torch 到一个能精准识别行人、车辆的 AI 模型,我们花了数周时间。回头看这段路,踩过的坑比写过的代码还多,但每一步都值得。


最终成果

我们训练出了一个基于 YOLO11s 的无人机视角应急救援目标检测模型,最终验证结果如下:

指标 数值 等级
整体 mAP50 0.806 ⭐⭐⭐⭐⭐ 优秀
车辆 mAP50 0.908 ⭐⭐⭐⭐⭐ 卓越
行人 mAP50 0.705 ⭐⭐⭐⭐ 良好
单帧推理速度 15.8ms 满足实时需求
训练配置 详情
数据集 VisDrone(6,471张训练图,548张验证图)
检测类别 person(人), vehicle(车)
输入分辨率 960×960
基础模型 YOLO11s
总训练轮次 100 epochs(最佳模型)
硬件 NVIDIA RTX 4060 Laptop 8GB

我们走过的路

第一关:环境搭建
Python版本不兼容、pip源下载慢、编码格式报错、路径写错……光是让 YOLO 在本地跑起来,就折腾了整整一周。张钧瑞负责逐条命令执行,周琦排查报错,李润泽补充文档。

第二关:数据处理
VisDrone 数据集有 10 个类别,我们只关心人和车。李润泽写了过滤脚本,把 6,471 张训练图提取出来,统一映射为 0 和 1 两个类别 ID。这一步看似简单,但中间经历了重复标注、路径嵌套等意外。

第三关:训练调参
第一次训练用了 1280 分辨率,一个 epoch 要跑半小时。后来降到 960,速度提升了数倍。我们尝试了不同的学习率、batch size、训练轮次,甚至经历了“越训练效果越差”的过拟合陷阱。最终发现,100 轮训练的模型效果最好,mAP50 达到 79.8%。

第四关:模型测试
我们用验证集对最佳模型进行了正式评估,车辆检测精度高达 90.8%,行人检测也达到了 70.5%。对于无人机俯拍视角的小目标检测来说,这个成绩超出了我们的预期。


技术积累

  • 学会了 YOLO 训练全流程:从环境搭建、数据标注、格式转换,到训练、验证、调参。
  • 理解了显存管理:8GB 显存如何搭配分辨率、batch size 才能不溢出。
  • 掌握了过拟合判断:训练轮次不是越多越好,验证集精度下降就要及时停止。
  • 积累了脚本编写经验:数据过滤、格式转换、路径管理,写了不少 Python 工具脚本。

未来展望

我们已经准备好了火焰数据集,下一步将把 fire 作为第三类别融入现有模型,让这套系统具备火灾检测能力。届时,它将真正成为一个集行人搜救、车辆定位、火源预警于一体的综合性应急救援视觉系统。


致谢

感谢每一位成员的付出。
感谢深夜崩溃时没有砸电脑的克制力。
感谢 Google、Stack Overflow 和 Ultralytics 文档。

技术只是工具,真正有价值的是它能帮助的人。 希望我们的模型有一天能真正用在应急救援场景中,哪怕只多找到一个人,所有的努力都值得。


项目完成日期:2026年6月
团队:周琦、李润泽、张钧瑞

posted on 2026-06-19 22:25  浪速白雪姬  阅读(4)  评论(0)    收藏  举报