(开集检测系列）GLIPv2: Unifying Localization and VL Understanding

一句话概括：既GLIP统一了目标检测和phrase grounding任务，GLIP2进一步统一了VL理解任务（VQA和caption）；好处是：VL learn任务给phase grounding带来的好处，是grounding性能更好了；phase grounding任务给VL learn带来的好处是有可解释性和容易debug

1、问题
2、介绍和实现

1、问题

当前localization和VL understand统一模型效果不好，原因是

1、这2个任务差异：localization只需要图像信息和细粒度的结果（bbox/mask）,而VL understand任务需要视觉和文本融合和高语义的输出；
2、当前主流的融合模型都是一个localization是单模态，VLunderstand是双模态，具体来说是low-level 视觉backbone+2个high-level独立的处理分支分别处理localization和VL理解任务

2、介绍和实现

2.1 模型的统一

如上图VL grounding（语句的理解+语句中实体的定位）作为localization和VL understanding的meta 能力，基于该meta能力
1、对MLM预训练，只需要在text feature的P后面加2层的MLP作为MLM检测头；
2、对目标检测或者phrase grounding任务，和GLIP一致使用classifaction-to-matching统一检测和grounding任务，这2个任务输入差别是检测任务输入时类别的concat,grounding任务是语句

2.2 数据的统一

Localization数据（包含localizaion+语义类别），语义类别通过classification-to-matching转化为VL理解数据（各类别的cancat）。
VL理解数据（图片+语句），通过self-training生成localization（bbox+mask）数据，转为为VL理解数据

2.3 其他增强

GLIP不足：仅照片内的phase和region对比，由于负样本少，没有充分利用数据信息，因此GLIP2引入inter-image 一个batch内图片见所有的phase和region的对比学习来学习更加鲁邦的region-word特征

2.3 loss统一

2.4 应用

训练好之后在任务上的应用：

1、检测任务，直接使用
2、VL任务:
VQA,在隐藏表征前面加分类头进行finetune
caption生成任务，使用单向语言模型的loss来回归出剩下的文本

2.5 效果

posted @ 2022-08-08 22:22 哈哈哈喽喽喽阅读(873) 评论(0) 收藏举报

刷新页面返回顶部

哈哈哈喽喽喽