Context-Aware Multi-View Summarization Network for Image-Text Matching

目的
- 1.1 目标
- 1.2 困难
实现策略
- 2.1 网络结构
- 2.2 AGSA模块
- 2.3 图像嵌入模块
- 2.4 文本嵌入模块
实验结果

内容

目的
- 1.1 目标
  - 为了解决多模态情况下，降低文本与图像的不一致性，解决匹配(align)问题
- 1.2 困难
  - 文本表示的多样性（多段文字都可以表示一张图像）、图像识别的困难性等
实现策略
- 2.1 网络结构
  - 网络结构如下，主要分为三个模块，第一个是图像嵌入模块，第二个是文本嵌入模块，第三个是对loss的设计
- 2.2 AGSA模块
  - 网络结构中多次用到AGSA模块，它主要是为了利用模态间的信息引入的，目的是提高图像和文本的表示能力，它的结构是
    
    其中FC层表示全连接层，点表示逐像素相乘，X表示矩阵相乘，可以明显的看到这里利用了注意力机制。
    
    它的处理过程主要有
    
    这里X代表输入，W代表全连接层参数，Q,K,V分别代表之后的输出，可以从图中进行参考。之后进行
    
    得到G，其中W为可学习的全连接参数，Q,K为上层的输出，b为偏置项。
    
    再之后，经过FC层和激活函数，得到M，同前面类比，W为参数，b为偏置项，G为上层的输出
    
    最后使用得到的注意力机制提取的特征，具体的，若设
    
    显然这里Q,K做积，正则化后过softmax层，最后与原始向量V相乘，我们可以借助attention函数表示处理过程为
    
    其中M为上层得到的输出，Q,K为一开始经过FC层的输出，V为原始向量经过一层FC得到的输出（请参阅图示）
    
    得到最后的表示h_i，最后，由于存在多个这样的X，我们将结果拼接后与原始向量相加，便于提高学习效率
- 2.3 图像嵌入模块
  
  首先使用Bottom-up Feature Extraction提取出分数最高的R个ROIs，然后他们的区域信息表示成
  
  x,y表示该区域最左上角那个像素在整个图像的坐标，w，h表示区域所占的长和宽
  
  同时，使用平均池化将得到的第i个ROI表示成向量的形式，即
  
  最用用f过全连接层，得到v
  
  其中w仍然是可学习的参数，b为偏置项
  
  为了将区域信息在全局角度上审视，将p进行规范化，如下
  
  其中w，h，表示全局长宽，带下标i的表示某个区域的长宽
  
  然后过全连接层和激活函数
  
  将之前得到的vi与现在的pi分别进行拼接，得到V,P作为嵌入，点乘后通过AGSA模块
  
  得到上下文增强的区域特征矩阵(context-enhanced region feature matrix)
  
  论文中还引入了空洞卷积形成金字塔，对图像的区域信息进行描述，给出K个空洞卷积核，对图像进行卷积，得到输出后拼接，具体地，
  
  之后过全连接层和softmax层，形式化如下
  
  参数的意义是十分明显的,W,b，依旧和前面一致。
  
  最后用S增强V，得到V*
- 2.4 文本嵌入模块
  
  文本嵌入比较简单，主要是先使用一个训练过的BERT进行处理，得到文本嵌入E，而后经过一个全连接层，再过一个AGSA模块，最后经过两个全连接层并与原始输入进行相加，形成残差，最后对其求期望，得到标准化的表示，作者称为context-enhanced sentence feature vector
- loss函数
  
  对loss的函数主要使用cos函数进行度量，主要策略是
  
  其中V，Z是前面得到的图像和文本的嵌入，cos代表标准cosine函数，LR是所设计的部分loss函数
  
  另外，还要对模态间的差异进行最小化，具体地
  
  其中S经由之前的S得到，并取其L2范数，U代表单位矩阵，范数取frobenius norm
  
  最后将两部分loss融合，加入超参数λ
实验结果
- 作者使用了多个数据集进行了实验，并进行了消融实验，我们仅取一部分作为代表

posted @ 2020-11-18 10:52 沙夜阅读(271) 评论(0) 收藏举报

刷新页面返回顶部

Context-Aware Multi-View Summarization Network for Image-Text Matching

公告