2025 年 5月 11 日随笔档案 - WeihangZhang

2025年5月11日

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

摘要： UniME 提出了一种利用多模态大语言模型（MLLM）学习通用嵌入表示的新框架，在多种跨模态任务中实现了显著性能提升 Q1：为什么传统 CLIP 表示不适合复杂跨模态任务？ A：因为 CLIP 的图文编码是分离的，它不能理解图像和语言之间复杂的上下文关系，尤其在长文本和多元素组合时容易丢失语义。 Q 阅读全文

posted @ 2025-05-11 20:40 WeihangZhang 阅读(148) 评论(0) 推荐(0)

Weihang Zhang

Blogs of Weihang Zhang

公告