[PaperReading] VLM2VEC: TRAINING VISION-LANGUAGE MODELS FOR MASSIVE MULTIMODAL EMBEDDING TASKS

VLM2VEC: TRAINING VISION-LANGUAGE MODELS FOR MASSIVE MULTIMODAL EMBEDDING TASKS

Embedding模型是semantic语义相似性、信息检索与聚类等任务的关键模型。本工作针对embedding模型有三个contribution：

将query或者target输入VLM之后，将最后一层最后一个token取出作为embedding，通过以下公式来对齐query与target特征空间。

其中 \(h_{q}\)与\(h_{t}\)分别为query与target，可以是图、文或者图文对。

MMEB(massive multimodal embedding benchmark)
任务类型的图示说明

MMEB数据包含4个任务类别，总共36个数据集，以下表格与图示说明任务与子数据集之间的关系

LoRA微调结果反而比全模型更好，一种高能性是LoRA参数量更少，不容易在Finetune数据集上过拟合。

- 指令跟随能力：VLM2Vec能够理解和执行自然语言指令，根据不同的任务要求生成相应的嵌入表示，这是普通VLM不具备的专业化能力。
- 对比学习优化：通过大规模的对比学习训练，VLM2Vec的嵌入空间被优化用于相似性计算和检索任务，而普通VLM的输出空间主要针对生成任务优化。

梯度累积：解决的是前向传播和反向传播过程中的内存瓶颈。它通过“化整为零”的策略，将一个大批次分割成多个小批次顺序处理，并累积梯度，最终进行一次参数更新，从而模拟大批次训练的效果。
GradCache：解决的是对比学习任务本身的内存瓶颈。在对比学习中，计算损失需要在一个批次内进行大量的样本间交互（如计算所有样本对的相似度）。GradCache通过“解耦计算依赖”的策略，将嵌入表示的计算与对比损失的计算分离，从而真正实现超大批次的对比学习。

方法相对而言比较容易想到，建立了比较完善的Benchmark全面证明方法的有效性。