0913 每日文献阅读打卡

Read Data: 0913

Publication:

Title: Supervised Multimodal Bitransformers for Classifying Images and Text

Aim:

提供一个简单又有效的方法，对多模态处理中。

Research Question:

在现代数字世界中，我们面临的许多分类问题本质上是多模式的:网络上的文本信息很少单独出现，经常伴随着图像、声音、视频或其他模式。所以，对多模态的研究是势不可挡的趋势。

Method:

本文是以Bert为主体模型外加一层全连接层做分类器(简称MMBT)，利用BERT的输入特性，提供多模态特征的输入空间。本文对文本的处理是直接使用预训练好的BERT，对图片的处理是使用预训练好的ResNet-152的输出作为图片的特征，输入到BERT中。具体来说，将ResNet最后的pooling层的每个feature map展开为图片的特征，所以一张图片可以得到N=KM个特征embedding,每个embedding都是由K*M展开得到2048维的，然后再使用一个W矩阵映射为N个d维的embedding作为一张图片的特征输入到BERT中。

Results:

MMBT与对比BERT在一个数据集中，提高了3个百分点；在二个数据集中，提高了6个百分点。所以总的来说，多模态比单模态性能好。

Discussion:

本文是利用了bert的输入特性，和卷积神经网络的特性，直接将特征输入到bert中，利用bert的self-attention机制将文本和图片的特征结合。想法很直接。

Conclusion:

我们比较了各种任务上的几个基线，包括专门为检查多模态性能而创建的硬测试集(即单模态性能失败的地方)。我们发现，提出的体系结构显著优于现有的技术状态，以及强大的基线。然后，我们对多模态优化进行了分析，探索了冻结/解冻策略，并查看了参数的数量，表明带有更多参数和更深入的分类器的强基线仍然表现出色。

Further:

Ref:

posted on 2021-09-13 10:46 Lf&x&my 阅读(114) 评论(0) 收藏举报

0913 每日文献阅读 打卡

0913 每日文献阅读打卡