0913 每日文献阅读 打卡

 

 

Read Data: 0913

Publication:

Title: Supervised Multimodal Bitransformers for Classifying Images and Text

Aim:

提供一个简单又有效的方法,对多模态处理中。

Research Question:

在现代数字世界中,我们面临的许多分类问题本质上是多模式的:网络上的文本信息很少单独出现,经常伴随着图像、声音、视频或其他模式。所以,对多模态的研究是势不可挡的趋势。

Method:

本文是以Bert为主体模型外加一层全连接层做分类器(简称MMBT),利用BERT的输入特性,提供多模态特征的输入空间。本文对文本的处理是直接使用预训练好的BERT,对图片的处理是使用预训练好的ResNet-152的输出作为图片的特征,输入到BERT中。具体来说,将ResNet最后的pooling层的每个feature map展开为图片的特征,所以一张图片可以得到N=KM个特征embedding,每个embedding都是由K*M展开得到2048维的,然后再使用一个W矩阵映射为N个d维的embedding作为一张图片的特征输入到BERT中。

 

Results:

MMBT与对比BERT在一个数据集中,提高了3个百分点;在二个数据集中,提高了6个百分点。所以总的来说,多模态比单模态性能好。

Discussion:

本文是利用了bert的输入特性,和卷积神经网络的特性,直接将特征输入到bert中,利用bert的self-attention机制将文本和图片的特征结合。想法很直接。

Conclusion:

我们比较了各种任务上的几个基线,包括专门为检查多模态性能而创建的硬测试集(即单模态性能失败的地方)。我们发现,提出的体系结构显著优于现有的技术状态,以及强大的基线。然后,我们对多模态优化进行了分析,探索了冻结/解冻策略,并查看了参数的数量,表明带有更多参数和更深入的分类器的强基线仍然表现出色。

Further:

 

Ref:

 

posted on 2021-09-13 10:46  Lf&x&my  阅读(114)  评论(0)    收藏  举报