目标检测任务解析

（一）目标检测任务说明

目标检测（Object Detection）是计算机视觉的核心任务之一，它的目标是：

在图像/视频中找到所有物体，并同时给出它们的类别（分类）和位置（定位）。

因此目标检测是一个 分类 + 回归（回归 bounding box） 的联合任务。

1. 输入与输出

输入：一张 RGB 图像（例如 640×640）或视频帧

输出（对每个目标）：

类别（如：person, car, dog）
边界框坐标（bounding box）

多为 (x_min, y_min, x_max, y_max) 或 (cx, cy, w, h)

置信度（confidence score）
多目标可返回多个目标框

2. 评价指标（metrics）

基础知识：IoU（Intersection over Union）交并比，衡量预测框与真实框的重叠程度：

IoU=Area(P∩G)Area(P∪G)IoU = \frac{Area(P \cap G)}{Area(P \cup G)}

常用阈值：0.5 → 较松；0.75 → 较严；0.5:0.95 → COCO 标准（最严格）

精度指标：

Precision（查准率）：预测对的有多少
Recall（查全率）：应检出的有多少被检测到
F1-score：其调和平均

综合精度指标(PR-curve)：

AP 是在不同 召回率（Recall） 下的 精确率（Precision） 的平均，衡量某一类别的检测质量。

AP50：IoU=0.5 的 AP
AP75：IoU=0.75 的 AP
AP@[0.5:0.95]：COCO 指标（10 个 IoU 阈值平均）

mAP对所有类别的 AP 取平均：

Pascal VOC 用 mAP@0.5
COCO 用 mAP@[0.5:0.95]

速度指标：

FPS/Latency 模型的实时性指标。FPS每秒处理几帧；Latency处理一张图像的时间
FLOPS
parameters

3. 常用数据集

下面是最常用的数据集，你入门一定会遇到：

（1） COCO Dataset（最常用）

[下载地址]

80 类物体
118K 训练 + 5K 验证
标注密集包含 segmentation、keypoint
当前 SOTA benchmark 都用 COCO

用途：通用目标检测

（2）Pascal VOC

[下载地址]

20 类
图片数量少（约 11K）
是最早的 benchmark

用途：入门、初学者练手，小模型评估

（3）Objects365

365 类
超大规模（约 60 万图像）
供大模型训练，如 DETR/OVD 模型

用途：大模型预训练、大规模 OVD

（4）LVIS Dataset

1200+ 类
long-tail（长尾分布）
对 open-vocabulary detection 研究非常重要↳

用途：Open-Vocabulary Detection、零样本检测↳

（5）Open Images Dataset

600 类
含 bounding box + segmentation + relationships（关系图谱）

用途：大规模检测、关系推理

（6）特殊场景数据集

交通：BDD100K、KITTI
遥感：DOTA、DIOR
医学：Cell Detection、DeepLesion
水下：URPC

（二）目标检测的两大流派

1.两阶段 Two-stage

代表模型：

R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN

特点：

第一步生成候选框（RPN）
第二步分类和回归
精度高但速度稍慢

2.单阶段 One-stage

代表模型：

YOLO 系列（YOLOv3→v8→v11）
SSD
RetinaNet
YOLOX（anchor-free）
RT-DETR（Transformer 实时检测）

特点：

直接从特征图预测类别和框
速度快，部署友好，工业界常用

（待完善）

posted @ 2025-11-26 11:18 BlnoOo 阅读(90) 评论(0) 收藏举报

刷新页面返回顶部

Bln、

目标检测任务解析

公告