多图像输入视觉语言模型技术突破
多图像输入视觉语言模型
视觉语言模型能够将图像和文本映射到共同的表示空间,在多模态AI任务中展现出卓越性能。但传统模型通常基于文本-图像对进行训练,每个文本输入仅关联单张图像,这限制了模型的应用场景。
在冬季计算机视觉应用会议(WACV)上,提出了一种新的多图像聚合嵌入方法,显著提升了多模态AI任务的性能。研究团队对比了四种图像融合方法:元素级平均嵌入、最大池化以及两种基于神经网络注意力机制的方法(含门控机制与无门控机制)。
模型架构
典型视觉语言模型包含图像编码器(生成输入图像的嵌入表示)和投影层(将图像嵌入投影到预训练大语言模型的表示空间)。有时在图像编码器与投影层之间还会插入查询嵌入生成器。
本研究引入了多重实例视觉组件(MIVC),无论何种架构都能接收视觉编码器的输出,为多个输入图像创建统一表示。
排列不变注意力机制
视觉编码器可识别输入数据的特征(从低级的图像块颜色梯度到高级的特定形状),并沿每个特征维度为输入分配数值。首个MIVC方法简单平均输入图像的特征值,而最大池化则选择所有图像中每个特征的最高值。
注意力机制针对特定任务进行微调,学习哪些图像的哪些特征对任务最为重要。为确保多图像表示对图像输入顺序保持不变,设计了基于所有输入图像嵌入的注意力机制。
门控注意力机制与基础注意力机制类似,但额外学习sigmoid函数以增强高注意力值并降低低值,试图分离输入信号中最关键的特征。然而实验表明其性能不如基础注意力机制。
实验结果
在商品分类、商品信息推断和图像描述三项任务中,无门控注意力机制模型全面优于其他方法,有时优势显著。在图像描述任务中比基线高6.4%,在商品属性推断任务中精确率和召回率分别比基线高6.9%和7.9%。
当前注意力机制仅适用于视觉编码流程,且假设所有图像独立同分布。后续工作正在研究跨模态注意力及图像间相关性是否能够带来进一步改进。
相关会议:WACV 2024
相关出版物:MIVC: Multiple instance visual component for visual-language models
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号