多模态

1. CLIP模型

　　　　　　　　　　　　　　　　图1 CLIP Model

通过text encoder和text encode分别提取文字和图片的特征，然后通过向量的点乘得到相似度；仅仅通过点乘就可以实现，速度快，对于图文匹配效果好。对于别的任务（VQA、VR、VE）性能就不够好了，因为模态间光靠一个简单的点乘是不够的。

2. BLIP

　　　　　　　　　　　　　　　　图2 BLIP Model

ITC loss & ITM loss

‌任务分工‌：
‌ITC‌：ITC是对比学习，通过最大化positive image-text pair，最小化negative image-text pair。计算图像和文本的全局特征相似度（通过[CLS]标记），快速筛选潜在匹配对‌。
‌ITM‌：ITM是二分类模型，加入一个linear layer，直接给image-text pair打分。通过交叉注意力分析局部对齐（如物体-单词关系），判断图文是否真正匹配‌，ITM可以纠正ITC可能误判的样本。

LM: 生成任务。

Q：有了ITC这个目标，加入ITM这个目标有什么好处？

由于训练ITC目标时，为了防止信息泄露，image和text不能attention彼此，捕捉到的image-text交互信息有限。训练ITM允许image和text互相attention，而且是双向的，来捕捉到更细粒度的image-text交互信息。

同时训练这两个目标，互补一下，以更好地进行image-text对齐。

下图是BLIP模型的Cap Filter，整体思路如下：

1. 使用网上抓取的数据和COCO干净数据集进行预训练BLIP模型；因为网上抓取的数据不干净，存在错误标注的数据。

2. 因此再使用干净的COCO数据集finetune训练上述预训练的BLIP模型。

3. 然后使用finetune的BLIP模型中的Image-grounded Text Encoder过滤掉网上抓取的数据集，得到比较干净的数据集；

4. 同时使用finetune的BLIP模型中的Image-grounded Text Decoder对网上抓取的图片数据重新标注文字；

5. 同时将COCO数据集和上述的两个重新生成的数据组合成一个大数据集，然后在训练BLIP模型；

　　　　　　　　　　　　图3 Cap Filter Model

posted @ 2024-07-15 22:01 指间的执着阅读(28) 评论(0) 收藏举报

刷新页面返回顶部

多模态

公告