Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

UniME 提出了一种利用多模态大语言模型（MLLM）学习通用嵌入表示的新框架，在多种跨模态任务中实现了显著性能提升

Q1：为什么传统 CLIP 表示不适合复杂跨模态任务？
A：因为 CLIP 的图文编码是分离的，它不能理解图像和语言之间复杂的上下文关系，尤其在长文本和多元素组合时容易丢失语义。

Q2：文本蒸馏对 MLLM 有什么好处？
A：它让 MLLM 的语言部分“继承”了判别型语言模型的嵌入能力，弥补了自回归模型只擅长生成而不擅长表示的问题。

Q3：为什么“难负样本”很重要？
A：因为“容易的负样本”训练效果有限，只有那些和正样本很接近的“难负样本”才能真正帮助模型学会细微差异。

Q4：UniME 的训练耗费资源吗？
A：不高。第一阶段使用文本输入，仅需 1~2 小时；第二阶段通过参数高效技术与小批次训练，在保证效果的前提下大幅降低资源开销。

背景

在多模态任务（如图文检索、VQA等）中，传统方法如 CLIP 虽然强大，但存在文本截断、模态隔离和组合能力差的问题。本文提出 UniME 框架，通过两阶段方法解决上述痛点，旨在充分释放多模态大模型的潜力。

动机与方法

为什么需要 UniME？

CLIP 的局限性：
- 文本只能处理 77 个 token；
- 图文分别编码，难以融合上下文；
- 语言建模较弱，组合表达能力差。
现有多模态大模型（MLLM）的问题：
- 尽管具备理解复杂指令的能力，但因自回归建模目标，缺乏强表示能力；
- 很少有方法专注于如何让 MLLM 产生具区分性的通用嵌入。

方法细节

UniME 的两阶段训练框架

第一阶段：文本判别蒸馏（Textual Discriminative Knowledge Distillation）

从一个强大的 LLM 嵌入模型（NV-Embed V2）中“蒸馏”知识；
优化 MLLM 的语言部分，使其能生成更有判别性的文本表示；
使用提示词如：“Summarize the above sentences in one word”。

下图展示了蒸馏结构，通过 KL 散度最小化实现嵌入对齐。

第二阶段：增强的指令调优（Hard Negative Enhanced Instruction Tuning）

引入“难负样本挖掘”和“误负样本过滤”策略；
使用任务特定提示对模型进行跨模态调优；
强化模型在复杂指令下的辨识与组合能力。

下图展示了难负样本训练流程，有效提高模型判别边界。

实验设计与结果

实验设置

训练数据：使用 NLI 文本对进行蒸馏，使用 MMEB 数据集进行调优（共 662K 对）；
模型基础：Phi3.5-V（4.2B）与 LLaVA-1.6（7B）；
训练时间：蒸馏阶段仅需 1-2 小时，调优阶段约 26-37 小时（8×A100 GPU）。

主要结果

MMEB Benchmark（多模态通用任务）

相较于 E5-V 与 VLM2Vec，UniME 在所有子任务（分类、VQA、检索、定位）中平均提升 1.3%-4.2%。

图文检索任务（短文/长文/组合）

长文本检索（Urban1K）上对 EVA-CLIP 提升高达 18.1%；
SugarCrepe 组合检索任务上对 VLM2Vec 提升 9.1%。

下图展示了嵌入相似度矩阵，清晰度显著提升。

总结与讨论

UniME 的关键优势在于：

融合式架构：利用 MLLM 本身的跨模态理解能力；
高效训练：基于 QLoRA 与 GradCache，实现低成本高性能；
泛化能力强：在多个领域任务（零样本、长文本、组合检索）中稳健表现。

posted @ 2025-05-11 20:40 WeihangZhang 阅读(148) 评论(0) 收藏举报

刷新页面返回顶部

Weihang Zhang

Blogs of Weihang Zhang