目标检测
(一)目标检测任务说明
目标检测(Object Detection)是计算机视觉的核心任务之一,它的目标是:
在图像/视频中找到所有物体,并同时给出它们的类别(分类)和位置(定位)。
因此目标检测是一个 分类 + 回归(回归 bounding box) 的联合任务。
1. 输入与输出
输入:一张 RGB 图像(例如 640×640)或视频帧
输出(对每个目标):
-
类别(如:person, car, dog)
-
边界框坐标(bounding box)
-
多为 (x_min, y_min, x_max, y_max) 或 (cx, cy, w, h)
-
-
置信度(confidence score)
-
多目标可返回多个目标框
2. 评价指标(metrics)
基础知识:IoU(Intersection over Union)交并比,衡量预测框与真实框的重叠程度:
IoU=Area(P∩G)Area(P∪G)IoU = \frac{Area(P \cap G)}{Area(P \cup G)}IoU=Area(P∪G)Area(P∩G)
常用阈值:0.5 → 较松;0.75 → 较严;0.5:0.95 → COCO 标准(最严格)
精度指标:
-
Precision(查准率):预测对的有多少
-
Recall(查全率):应检出的有多少被检测到
-
F1-score:其调和平均
综合精度指标(PR-curve):
- AP 是在不同 召回率(Recall) 下的 精确率(Precision) 的平均,衡量某一类别的检测质量。
-
AP50:IoU=0.5 的 AP
-
AP75:IoU=0.75 的 AP
-
AP@[0.5:0.95]:COCO 指标(10 个 IoU 阈值平均)
-
- mAP对所有类别的 AP 取平均:
mAP=1C∑c=1CAPcmAP = \frac{1}{C}\sum_{c=1}^{C}AP_cmAP=C1c=1∑CAPc-
Pascal VOC 用 mAP@0.5
-
COCO 用 mAP@[0.5:0.95]
-
速度指标:
- FPS/Latency 模型的实时性指标。FPS每秒处理几帧;Latency处理一张图像的时间
- FLOPS
- parameters
3. 常用数据集
下面是最常用的数据集,你入门一定会遇到:
(1) COCO Dataset(最常用)
-
80 类物体
-
118K 训练 + 5K 验证
-
标注密集包含 segmentation、keypoint
-
当前 SOTA benchmark 都用 COCO
用途:通用目标检测
(2)Pascal VOC
-
20 类
-
图片数量少(约 11K)
-
是最早的 benchmark
用途:入门、初学者练手,小模型评估
(3)Objects365
-
365 类
-
超大规模(约 60 万图像)
-
供大模型训练,如 DETR/OVD 模型
用途:大模型预训练、大规模 OVD
(4)LVIS Dataset
-
1200+ 类
-
long-tail(长尾分布)
-
对 open-vocabulary detection 研究非常重要↳
用途:Open-Vocabulary Detection、零样本检测↳
(5)Open Images Dataset
-
600 类
-
含 bounding box + segmentation + relationships(关系图谱)
用途:大规模检测、关系推理
(6)特殊场景数据集
-
交通:BDD100K、KITTI
-
遥感:DOTA、DIOR
-
医学:Cell Detection、DeepLesion
-
水下:URPC
(二)目标检测的两大流派
1.两阶段 Two-stage
代表模型:
-
R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN
特点:
-
第一步生成候选框(RPN)
-
第二步分类和回归
-
精度高但速度稍慢
2.单阶段 One-stage
代表模型:
-
YOLO 系列(YOLOv3→v8→v11)
-
SSD
-
RetinaNet
-
YOLOX(anchor-free)
-
RT-DETR(Transformer 实时检测)
特点:
-
直接从特征图预测类别和框
-
速度快,部署友好,工业界常用
(待完善)
本文来自博客园,作者:BlnoOo,转载请注明原文链接:https://www.cnblogs.com/Bolan/p/19267405

浙公网安备 33010602011771号