[PaperReading] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
link
时间:22.02
单位:Junnan Li Dongxu Li Caiming Xiong Steven Hoi
相关领域:ICML
作者相关工作:多模态
被引次数:5155
主页:https://github.com/salesforce/BLIP
TL;DR
本工作出发点: a.目前VLP(vision-language pre-training)的预训练任务要么专注于理解,要么专注于生成。b.用于预训练的数据少并且脏。本文设计新预训练范式,并扩充与清洗数据集。在image-text retrieval、image caption、VQA等任务上提升明显。
Method
预训练
理解与生成同时预训练,三个预训练任务如下:
- ITC(image text contrastive): 类似于CLIP的图文正负样本对比学习
- ITM(image text matching): 区别于上面,将图像特征cross-attention注入text encoder,判别是否为同一对样本。
- LM(language model): 将图像特征cross-attention注入text encoder,生成text文本,类似于常规语言模型生成式训练任务
![]()
DataFilt数据
上述方式预训练模型既有判别能力(判断image对应的text是否匹配,是否真实),也能生成能力(根据图像生成caption)。使用人工精标数据Finetune将该模型后,可以用来给原web图像\(I_w\)打标,同时也可以用其判别能力过滤掉一些脏样本形成(\(I_w\), \(I_s\))数据集,该数据集加入后开启新一轮预训练。由此迭代多轮,产生更好的多模态预训练模型。

Implementation
- batch_size: 2880
- 32gpus
- web data: 115M LAION
Experiment
Bootstrap阶段DataFilt作用明显,但没有说明不同pretrain-task之间的效果差异


Q&A
Q:下游VQA任务是如何实现的?
A:如下模型结构图Image Encoder、Question Encoder均复用自BLIP预训练模型,Answer Decoder有可能是From Scratch。推测是整体一起Finetune。

总结与思考
无
相关链接
BLIP: Bootstrapping Language-Image Pre-training
Related works中值得深挖的工作
资料查询
折叠Title
FromChatGPT(提示词:XXX)本文来自博客园,作者:fariver,转载请注明原文链接:https://www.cnblogs.com/fariver/p/18902892


浙公网安备 33010602011771号