[DETR] End-to-End Object Detection with Transformers

过去的方式并非端到端,例如还需要nms对一堆boundingbox做后处理。但,detr 终于做到了端到端!

 

End-to-End Object Detection with Transformers

Deformable DETR: Deformable Transformers for End-to-End Object Detection

 

Baidu's RT-DETR: A Vision Transformer-Based Real-Time Object Detector

 

 

 

开始精读


Anchor没了,成了 learned object queries。一股脑出所有最终版本的bounding boxes。

还能扩展到segmentation。

 

A large set of proposals, anchors, or window centers。

postprocessing。

预测框与gt框对比计算loss。如上图,只有两个框,有object就是前景物体;其他的就是“没object”,定义为背景物体。

初代detr对小目标不太友好。不到半年,Deformable DETR 解决了该问题,同时加快了训练过程。

 

每次有固定的N predictions。

以下是详细的推理过程。

 

posted @ 2021-06-02 22:36  郝壹贰叁  阅读(116)  评论(0编辑  收藏  举报