Deep Supervised Cross-modal Retrieval学习笔记

摘要

在本文中提出了一种新颖的跨模式检索方法，称为深度监督跨模式检索（Deep Supervised Cross-modal Retrieval, DSCMR）。它旨在找到一个通用的表示空间，在其中可以直接比较来自不同模态的样本。

包括两个子网络——一个是图像模态，另一个是文本模态，端到端训练
对于图像：利用预训练在 ImageNet 的网络提取出图像的 4096 维的特征作为原始的图像高级语义表达。然后后续是几个全连接层，来得到图像在公共空间中的表达。
对于文本：利用预训练在 Google News 上的 Word2Vec 模型，来得到 k 维的特征向量。一个句子可以表示为一个矩阵，然后使用一个 Text CNN来得到原始的句子高级语义表达。之后也是同样的形式，后面是几个全连接层来得到句子在公共空间中的表达。
为了确保两个子网络能够为图像和文本学到公共的表达，我们使这两个子网络的最后几层共享权重。直觉上这样可以使得同一类的图片和文本生成尽可能相似的表达。
最后面是一层全连接层来进行分类。

只需要了解两个。。剩下的那个emm比较麻烦，就不提了。

\[J_1 = \frac{1}{n}||P^TU-Y||_F + \frac{1}{n}||P^TV-Y||_F\\ J_3 = \frac{1}{n}||U-V||_F \]

posted @ 2020-08-08 17:56 码我疯狂的码阅读(810) 评论(0) 编辑收藏举报

刷新页面返回顶部