(开集检测系列)GLIPv2: Unifying Localization and VL Understanding

一句话概括:既GLIP统一了目标检测和phrase grounding任务,GLIP2进一步统一了VL理解任务(VQA和caption);好处是:VL learn任务给phase grounding带来的好处,是grounding性能更好了;phase grounding任务给VL learn带来的好处是有可解释性和容易debug

1、问题

当前localization和VL understand统一模型效果不好,原因是

  • 1、这2个任务差异:localization只需要图像信息和细粒度的结果(bbox/mask),而VL understand任务需要视觉和文本融合和高语义的输出;
  • 2、当前主流的融合模型都是一个localization是单模态,VLunderstand是双模态,具体来说是low-level 视觉backbone+2个high-level独立的处理分支分别处理localization和VL理解任务

2、介绍和实现


2.1 模型的统一

如上图VL grounding(语句的理解+语句中实体的定位)作为localization和VL understanding的meta 能力,基于该meta能力
1、对MLM预训练,只需要在text feature的P后面加2层的MLP作为MLM检测头;
2、对目标检测或者phrase grounding任务,和GLIP一致使用classifaction-to-matching统一检测和grounding任务,这2个任务输入差别是检测任务输入时类别的concat,grounding任务是语句

2.2 数据的统一

Localization数据(包含localizaion+语义类别),语义类别通过classification-to-matching转化为VL理解数据(各类别的cancat)。
VL理解数据(图片+语句),通过self-training生成localization(bbox+mask)数据,转为为VL理解数据

2.3 其他增强

GLIP不足:仅照片内的phase和region对比,由于负样本少,没有充分利用数据信息,因此GLIP2引入inter-image 一个batch内图片见所有的phase和region的对比学习来学习更加鲁邦的region-word特征

2.3 loss统一

2.4 应用

训练好之后在任务上的应用:

  • 1、检测任务,直接使用
  • 2、VL任务:
    VQA,在隐藏表征前面加分类头进行finetune
    caption生成任务,使用单向语言模型的loss来回归出剩下的文本

2.5 效果

posted @ 2022-08-08 22:22  哈哈哈喽喽喽  阅读(873)  评论(0)    收藏  举报