0913 每日文献阅读 打卡

|
Read Data: 0913 |
Publication: |
||
|
Title: Supervised Multimodal Bitransformers for Classifying Images and Text |
|||
|
Aim: 提供一个简单又有效的方法,对多模态处理中。 |
Research Question: 在现代数字世界中,我们面临的许多分类问题本质上是多模式的:网络上的文本信息很少单独出现,经常伴随着图像、声音、视频或其他模式。所以,对多模态的研究是势不可挡的趋势。 |
||
|
Method: 本文是以Bert为主体模型外加一层全连接层做分类器(简称MMBT),利用BERT的输入特性,提供多模态特征的输入空间。本文对文本的处理是直接使用预训练好的BERT,对图片的处理是使用预训练好的ResNet-152的输出作为图片的特征,输入到BERT中。具体来说,将ResNet最后的pooling层的每个feature map展开为图片的特征,所以一张图片可以得到N=KM个特征embedding,每个embedding都是由K*M展开得到2048维的,然后再使用一个W矩阵映射为N个d维的embedding作为一张图片的特征输入到BERT中。
|
|||
|
Results: MMBT与对比BERT在一个数据集中,提高了3个百分点;在二个数据集中,提高了6个百分点。所以总的来说,多模态比单模态性能好。 |
Discussion: 本文是利用了bert的输入特性,和卷积神经网络的特性,直接将特征输入到bert中,利用bert的self-attention机制将文本和图片的特征结合。想法很直接。 |
||
|
Conclusion: 我们比较了各种任务上的几个基线,包括专门为检查多模态性能而创建的硬测试集(即单模态性能失败的地方)。我们发现,提出的体系结构显著优于现有的技术状态,以及强大的基线。然后,我们对多模态优化进行了分析,探索了冻结/解冻策略,并查看了参数的数量,表明带有更多参数和更深入的分类器的强基线仍然表现出色。 |
Further:
|
||
|
Ref:
|
|||
浙公网安备 33010602011771号