ALBEF -> BLIP -> BLIP-2

ALBEF

因果关系的self-attention，拥有前半句，生成后半句

解决了生成任务，如何解决噪声数据？

BLIP 2

查询和当前这个文本最相关的图像信息是什么，同时把不想关的文本信息丢掉，目标文本指导查询图像

当前已经能从图像编码器中提取到更有用的视觉信息

posted @ 2023-03-18 22:00 Tsukinousag1 阅读(111) 评论(0) 收藏举报

刷新页面返回顶部