摘要: 一、多模态编码与特征提取 模态编码器 每个模态通过独立的预训练编码器(如视觉编码器、文本编码器)进行特征提取。例如: 视觉编码器:通常采用ViT(Vision Transformer)、CLIP-ViT或EVA-CLIP等模型,将图像分割为块(Patch)并通过Transformer编码为向量 1 阅读全文
posted @ 2025-03-09 23:54 258333 阅读(96) 评论(0) 推荐(0)