第十九课 多模态深度学习(第十八课没上)

image
image
image

首先介绍一下早期的多模态模型
现在我们有视觉模型和语言模型
image
我们现在要把图片嵌入和词嵌入放到同一个空间中,这个时候就要定义一种评估函数,让相近的文字和图片挨在一起,不相近的则远离
除了跨模态迁移(就是结合图片和文本,上面的方法),也可以将他们融合,一起反映多模态词嵌入。一个著名的算法就是视觉词袋
image
举一个简单的例子。我们是怎么学会“猫”这个字的呢?我们可以去字典查询定义,也可以选择看图片。显然后者是一个更好的方法
现在我们会利用深度学习的方法实现多模态
image
词嵌入的表示非常局限,我们更关心句子
image
编码器在发展,解码器当然也要发展
image
image
image
生成对抗网络的基本思想是:有一个生成器和判别器,目标是让生成器产生判别器无法区分的图像(也就是无法判断真假)

接下来准备介绍一些现在的模型。但是在介绍之前,我们要先问一个问题
image
第一条就是,比如一个视觉模型,可以不看图片直接利用文本回答
image
这个后面还是没看,感觉没啥用啊

posted @ 2025-03-18 16:50  最爱丁珰  阅读(18)  评论(0)    收藏  举报