0910 每日文献阅读打卡

Read Data:0910

Publication: CVPR 2021

Title: VirTex: Learning Visual Representations from Textual Annotations

Aim:

从少量图像学习到高质量的视觉表达。

Research Question:

在ImageNet上用卷积网络进行图像分类预先训练，然后将学习到的特征转移到下游任务。由于预训练步骤依赖于人工标注的图像，因此这种方法的扩展成本很高。

Method:

首先，我们从头开始联合训练ConvNet和Transformer，为图像生成自然语言字幕。然后，我们将学习到的特征转移到下游的视觉识别任务中

Results:

在VOC07上，VirTex-100%优于IN-sup-100% (mAP 88.7 vs 87.6)，尽管使用的图像少10张(118K vs 1.28M)。当使用相似数量的图像时，VirTex的性能始终优于INsup(蓝色、橙色vs绿色)，这表明VirTex的数据效率更高。我们还观察到，给定相同数量的标题用于训练，最好将它们分散在更多的图像上，VirTex-50%(1个标题)显著优于VirTex-10%(5个标题)(mAP 79.4 vs 69.3)。

Discussion:

Conclusion:

我们开始训练COCO，并将预训练模型迁移到包括分类，检测，分割等下游识别任务，在所有任务上virtex，在使用图像比imagenet少十倍的条件下,生成的特征可以匹配甚至超过，无论有监督无监督的imagenet上学习的特征。

证明使用文本注释学习视觉表示可以与基于监督分类和ImageNet上的自监督学习方法相比。但是，我们只关注视觉任务。最后，使用字幕打开了一个清晰的途径，可以将我们的方法扩展到互联网图像-文本对，它们的数量级更大，尽管比COCO题注更嘈杂。

Further:

未来的工作可以探索其他任务，转移视觉中枢和文本头部。

Ref:

详细阅读该论文。复现。

posted on 2021-09-10 11:09 Lf&x&my 阅读(122) 评论(0) 收藏举报

0910 每日文献阅读 打卡

0910 每日文献阅读打卡