对比学习新方法改进多模态数据表示

许多人工智能的最新进展都源于表示学习:机器学习模型学习将数据项表示为多维空间中的向量,其中向量之间的几何关系对应着项目之间的语义关系。某中心M5团队致力于构建与某中心商店相关数据的通用语义表示——产品描述、查询、评论等——这些表示可供某中心内部的机器学习系统使用。其方法涉及利用每个实体所有可访问的数据,这些数据通常跨越多种模态。

产生通用表示最成功的方法之一是对比学习,其中模型在输入对上进行训练,这些输入对要么是正例(相似输入/产品),要么是负例(不相似输入/产品)。模型学习将正例拉近,并将负例推开。

在最近的两篇论文中,M5的研究人员为对比学习的理论和实践做出了重要贡献。在2022年神经信息处理系统大会上发表的论文《为什么对比学习需要大批量?一个梯度偏置视角》中,提出了一种新的对比学习损失函数,使模型能够以更低的内存成本和更少的训练数据收敛到有用的表示。而在今年计算机视觉与模式识别大会上发表的论文《理解与构建多模态表示学习中的潜在模态结构》中,提出了对同一数据项不同模态表示的几何约束,这种方法比简单地试图将两种表示解析到表示空间中的同一点,对下游任务更有用。

为什么对比学习需要大批量?
与标准机器学习方法相比,对比学习通常需要非常大的批量大小才能获得良好性能:例如,一些流行模型需要数万个训练样本,显著增加了内存开销;减小批量大小可能会损害性能。在NeurIPS论文中,试图理解这一现象并提出缓解技术。

对比学习的部分吸引力在于它是无监督的,意味着不需要数据标注。正例对可以通过数学变换“锚样本”并将变换后的版本与原始版本配对来生成;负例对可以通过将锚样本与其他锚样本的变换版本配对来生成。对于图像数据,变换可能涉及重新裁剪、反转或扭曲锚样本的颜色;对于文本数据,变换可能涉及用同义词替换句子中的单词。

给定表示空间中向量之间相似性的度量,对比学习的标准损失函数涉及一个比率,其分子包含锚样本与其某个变换之间的相似性;分母包含锚样本与所有可能负样本的相似性之和。训练的目标是最大化该比率。

原则上,考虑到对负样本应用变换的可能性,“所有可能负样本”可以描述一个无限集合。实际上,对比学习通常仅依赖于训练批次中可用的负例。因此需要大批量——以近似无限和。

如果小批次样本的分布与可能负例的分布不同,这种近似可能会使模型产生偏置。纠正偏置的一个困难在于,由于损失函数将每个正例对与所有可能的负例一次性在比率中进行对比,它无法分解为子损失之和。

使用贝叶斯增强解决了可分解性问题。通用方法是,对于每个锚样本,创建一个随机辅助变量,可以将其视为应用于锚样本相似性得分的权重。利用伽马函数下的恒等式,可以证明该辅助变量遵循伽马分布,易于采样。因此,可以将损失重写为指数形式而非分数形式,使其可分解。

在训练期间,首先从伽马分布中对当前数据批次的辅助变量进行采样,得到所有锚样本相似性得分的权重。以采样值为条件,然后应用最大似然估计来优化模型参数,这将考虑第一步中相似性得分的采样权重。然后对整个数据集重复此过程,对一系列(加权的)子损失求和以产生累积损失。在论文中表明,此过程将收敛于原始对比损失函数的期望损失,其分母包含无限和。

通过多项实验评估了该方法。在一项实验中,使用了模拟数据,并注入噪声以模拟偏置。然后分别使用提出的损失函数和常规损失函数,以不同的初始化值训练模型10次。在高噪声水平下,使用常规损失训练的模型无法收敛,而提出的方法始终收敛到最优值。

还在各种下游任务上评估了模型,包括零样本/少样本图像分类以及图像/文本检索。提出的方法相较于最先进的基线方法显示出显著的性能提升。

哪种几何结构最适合多模态表示匹配?
在M5,正在构建可处理多模态数据的可扩展模型——例如,在不同语言产品描述之间进行翻译的多语言模型,或联合建模同一产品不同图像的多实体模型。对比学习是构建此类模型的有前途的方法:与同一产品相关的不同模态的数据可以被视为正例对,对比学习将它们拉近到表示空间中。

从理论上研究了标准对比学习框架在下游任务预测错误率方面是否最优,而令人惊讶的答案是否定的。在CVPR论文中证明,如果两种模态之间的信息差距很大——即,无法从一种模态推断出太多关于另一种模态的信息——那么使用标准对比学习表示所能期望达到的最佳预测误差,将大于直接在单一模态数据上训练机器学习模型所能达到的误差。

这在直觉上说得通。理想情况下,对比学习会将不同模态拉得非常紧密,以至于它们在表示空间中基本上会解析为单个点。但当然,在下游任务中使用多模态表示的原因是每种模态可能捕捉到另一种模态未捕捉到的有用信息。将不同模态的表示折叠在一起会抵消这一优势。

因此,在CVPR论文中,探索了表示空间中不同的几何关系,这些关系可以在不牺牲每种模态特有信息的情况下,建立多模态数据之间的关联。提出了三种构建表示空间中模态结构的通用方法,分别适用于模态内表示、模态间表示以及两者的结合:

  • 用于模态内正则化的深度特征分离损失,使用两种类型的神经网络组件来分离不同模态信息:一个组件捕捉模态之间共享的信息(根据标准对比学习损失进行调整),另一个与第一个正交的组件捕捉该模态特有的信息;
  • 用于模态间正则化的“布朗桥”损失,使用布朗运动绘制从一种模态表示到另一种模态表示之间的若干轨迹/过渡,并约束增强数据的表示位于其中一条路径上;
  • 用于模态内和模态间正则化的几何一致性损失,该损失在一个模态内部表示之间以及跨模态表示之间的几何关系中强制施加对称性。

在两个流行的多模态表示学习框架上进行了广泛的实验,即基于CLIP的双塔模型和基于ALBEF的融合模型。在多种任务上测试了模型,包括零样本/少样本图像分类、图文检索、视觉问答、视觉推理和视觉蕴含。方法相对于现有方法取得了一致的改进,证明了所提方法在多模态表示学习上的有效性和泛化能力。

展望未来
NeurIPS和CVPR论文仅代表了M5团队两个有趣的项目。M5还有更多关于多模态学习的研究正在进行中。这包括用于图像、视频和文本的生成模型以支持数据合成和表示学习,以及训练和应用大型语言模型以提升客户购物体验。预计在不久的将来会报告更多的研究亮点。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-12-21 13:04  CodeShare  阅读(1)  评论(0)    收藏  举报