多模态

1. CLIP模型

                图1 CLIP Model

 

通过text encoder和text encode分别提取文字和图片的特征,然后通过向量的点乘得到相似度;仅仅通过点乘就可以实现,速度快,对于图文匹配效果好。对于别的任务(VQA、VR、VE)性能就不够好了,因为模态间光靠一个简单的点乘是不够的。

 

2. BLIP

                 图2 BLIP Model

 

ITC loss & ITM loss

‌任务分工‌:
‌ITC‌:ITC是对比学习,通过最大化positive image-text pair,最小化negative image-text pair。计算图像和文本的全局特征相似度(通过[CLS]标记),快速筛选潜在匹配对‌。
‌ITM‌:ITM是二分类模型,加入一个linear layer,直接给image-text pair打分。通过交叉注意力分析局部对齐(如物体-单词关系),判断图文是否真正匹配‌,ITM可以纠正ITC可能误判的样本。

LM: 生成任务。

 

Q:有了ITC这个目标,加入ITM这个目标有什么好处?

由于训练ITC目标时,为了防止信息泄露,image和text不能attention彼此,捕捉到的image-text交互信息有限。训练ITM允许image和text互相attention,而且是双向的,来捕捉到更细粒度的image-text交互信息。

同时训练这两个目标,互补一下,以更好地进行image-text对齐。

 

下图是BLIP模型的Cap Filter,整体思路如下:

1. 使用网上抓取的数据和COCO干净数据集进行预训练BLIP模型;因为网上抓取的数据不干净,存在错误标注的数据。

2. 因此再使用干净的COCO数据集finetune训练上述预训练的BLIP模型。

3. 然后使用finetune的BLIP模型中的Image-grounded Text Encoder过滤掉网上抓取的数据集,得到比较干净的数据集;

4. 同时使用finetune的BLIP模型中的Image-grounded Text Decoder对网上抓取的图片数据重新标注文字;

5. 同时将COCO数据集和上述的两个重新生成的数据组合成一个大数据集,然后在训练BLIP模型;

             图3 Cap Filter Model

 

posted @ 2024-07-15 22:01  指间的执着  阅读(28)  评论(0)    收藏  举报