摘要: 首先介绍一下早期的多模态模型 现在我们有视觉模型和语言模型 我们现在要把图片嵌入和词嵌入放到同一个空间中,这个时候就要定义一种评估函数,让相近的文字和图片挨在一起,不相近的则远离 除了跨模态迁移(就是结合图片和文本,上面的方法),也可以将他们融合,一起反映多模态词嵌入。一个著名的算法就是视觉词袋 举 阅读全文
posted @ 2025-03-18 16:50 最爱丁珰 阅读(18) 评论(0) 推荐(0)