ALBEF -> BLIP -> BLIP-2


因果关系的self-attention,拥有前半句,生成后半句

解决了生成任务,如何解决噪声数据?

BLIP 2


查询和当前这个文本最相关的图像信息是什么,同时把不想关的文本信息丢掉,目标文本指导查询图像

当前已经能从图像编码器中提取到更有用的视觉信息



因果关系的self-attention,拥有前半句,生成后半句

解决了生成任务,如何解决噪声数据?



查询和当前这个文本最相关的图像信息是什么,同时把不想关的文本信息丢掉,目标文本指导查询图像

当前已经能从图像编码器中提取到更有用的视觉信息
