0909 每日文献阅读 打卡

|
Read Data: 0909 |
Publication: |
||
|
Title: (多模态)Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers |
|||
|
Aim: 从图像和句子对中,直接建立图像像素与语义之间更准确、更全面的联系,而不是将基于区域的图像特征作为最新的视觉和语言任务。 |
Research Question: 1、视觉和语言任务特定视觉表示的局限性。 2、标注边界框的成本。 3、视觉语义标签与文本语义之间的不平衡。 |
||
|
Method: 本文提出Pixel-BERT,学习图像像素与文本匹配,在视觉和文本信息之间建立一个更详细的语义embeding。该框架由三部分组成:1、CNN以图像输入进行视觉学习;2、BERT的词embeding;3、多模态的transformer。 |
|||
|
Results: 大量的实验证明了我们的方法的有效性,在各种任务中实现了最先进的性能,包括VQA,图像-文本检索和NLVR2。特别地,在公平比较中,我们的方法使VQA单模型的性能比之前的SOTA提高了2.17个点,甚至高于其更大的模型 |
Discussion: |
||
|
Conclusion: 预训练机制在视觉和语言领域表现出了其有效性。本文讨论了现有研究中常用的视觉嵌入方法,目的是解决基于区域的视觉表达的局限性。我们提出了基于cnn的视觉编码器,并将其与多模态转换器相结合,以端到端方式构建pixel - bert,在像素级和文本级构建更准确、更全面的视觉内容和语言内容嵌入。我们使用图像的像素作为输入,采用随机像素采样机制来增强视觉嵌入学习的鲁棒性。 |
Further: 没有标注边界框的限制,我们预训练的Pixel-BERT模型可以在更大的图像-句子对数据集上为图像和句子提供更强的表示。我们将考虑在概念标题数据集上预训练模型,以进一步优化视觉和语言嵌入。在本文中,由于区域像素重构困难,我们采用随机像素采样机制来替代这部分。在未来的研究中,我们将在现有的方法中研究如何设计和组合视觉内容的自我监督任务。 |
||
|
Ref:
|
|||
浙公网安备 33010602011771号