Context-Aware Multi-View Summarization Network for Image-Text Matching

Context-Aware Multi-View Summarization Network for Image-Text Matching
  1. 目的
    • 1.1 目标
    • 1.2 困难
  2. 实现策略
    • 2.1 网络结构
    • 2.2 AGSA模块
    • 2.3 图像嵌入模块
    • 2.4 文本嵌入模块
  3. 实验结果
内容
  1. 目的

    • 1.1 目标

      • 为了解决多模态情况下,降低文本与图像的不一致性,解决匹配(align)问题
    • 1.2 困难

      • 文本表示的多样性(多段文字都可以表示一张图像)、图像识别的困难性等

  2. 实现策略

    • 2.1 网络结构

      • 网络结构如下,主要分为三个模块,第一个是图像嵌入模块,第二个是文本嵌入模块,第三个是对loss的设计

    • 2.2 AGSA模块

      • 网络结构中多次用到AGSA模块,它主要是为了利用模态间的信息引入的,目的是提高图像和文本的表示能力,它的结构是

        其中FC层表示全连接层,点表示逐像素相乘,X表示矩阵相乘,可以明显的看到这里利用了注意力机制。

        它的处理过程主要有

        这里X代表输入,W代表全连接层参数,Q,K,V分别代表之后的输出,可以从图中进行参考。之后进行

        得到G,其中W为可学习的全连接参数,Q,K为上层的输出,b为偏置项。

        再之后,经过FC层和激活函数,得到M,同前面类比,W为参数,b为偏置项,G为上层的输出

        最后使用得到的注意力机制提取的特征,具体的,若设

        显然这里Q,K做积,正则化后过softmax层,最后与原始向量V相乘,我们可以借助attention函数表示处理过程为

        其中M为上层得到的输出,Q,K为一开始经过FC层的输出,V为原始向量经过一层FC得到的输出(请参阅图示)

        得到最后的表示h_i,最后,由于存在多个这样的X,我们将结果拼接后与原始向量相加,便于提高学习效率

    • 2.3 图像嵌入模块

      首先使用Bottom-up Feature Extraction提取出分数最高的R个ROIs,然后他们的区域信息表示成

      x,y表示该区域最左上角那个像素在整个图像的坐标,w,h表示区域所占的长和宽

      同时,使用平均池化将得到的第i个ROI表示成向量的形式,即

      最用用f过全连接层,得到v

      其中w仍然是可学习的参数,b为偏置项

      为了将区域信息在全局角度上审视,将p进行规范化,如下

      其中w,h,表示全局长宽,带下标i的表示某个区域的长宽

      然后过全连接层和激活函数

      将之前得到的vi与现在的pi分别进行拼接,得到V,P作为嵌入,点乘后通过AGSA模块

      得到上下文增强的区域特征矩阵(context-enhanced region feature matrix)

      论文中还引入了空洞卷积形成金字塔,对图像的区域信息进行描述,给出K个空洞卷积核,对图像进行卷积,得到输出后拼接,具体地,

      之后过全连接层和softmax层,形式化如下

      参数的意义是十分明显的,W,b,依旧和前面一致。

      最后用S增强V,得到V*

    • 2.4 文本嵌入模块

      文本嵌入比较简单,主要是先使用一个训练过的BERT进行处理,得到文本嵌入E,而后经过一个全连接层,再过一个AGSA模块,最后经过两个全连接层并与原始输入进行相加,形成残差,最后对其求期望,得到标准化的表示,作者称为context-enhanced sentence feature vector

    • loss函数

      对loss的函数主要使用cos函数进行度量,主要策略是

      其中V,Z是前面得到的图像和文本的嵌入,cos代表标准cosine函数,LR是所设计的部分loss函数

      另外,还要对模态间的差异进行最小化,具体地

      其中S经由之前的S得到,并取其L2范数,U代表单位矩阵,范数取frobenius norm

      最后将两部分loss融合,加入超参数λ

  3. 实验结果

    • 作者使用了多个数据集进行了实验,并进行了消融实验,我们仅取一部分作为代表

posted @ 2020-11-18 10:52  沙夜  阅读(271)  评论(0)    收藏  举报