摘要: UniME 提出了一种利用多模态大语言模型(MLLM)学习通用嵌入表示的新框架,在多种跨模态任务中实现了显著性能提升 Q1:为什么传统 CLIP 表示不适合复杂跨模态任务? A:因为 CLIP 的图文编码是分离的,它不能理解图像和语言之间复杂的上下文关系,尤其在长文本和多元素组合时容易丢失语义。 Q 阅读全文
posted @ 2025-05-11 20:40 WeihangZhang 阅读(106) 评论(0) 推荐(0)