[PaperReading] LXMERT: Learning Cross-Modality Encoder Representations from Transformers

简介

LXMERT: Learning Cross-Modality Encoder Representations from Transformers
时间：2019.08（EMNLP 2019）
单位：UNC Chapel Hill
相关领域：跨模态学习/视觉语言推理
作者相关工作：BERT式跨模态预训练的先驱工作
被引次数：3k
主页：https://github.com/airsplay/lxmert

提出首个大规模跨模态Transformer框架LXMERT，通过五类预训练任务（掩码语言建模、物体特征回归、物体标签分类、跨模态匹配、视觉问答）在180K图片-文本对上预训练。创新点包括：

三编码器架构（物体关系/Language/跨模态编码器）
跨模态注意力机制（图1交叉注意力层）
混合预训练策略（表4显示QA预训练提升2.1% NLVR2精度）
影响力：首次在VQA/GQA/NLVR2三任务同时达到SOTA，启发了后续ViLBERT、VisualBERT等工作。

核心模块：

训练集（表1）：
• 180K图片（MS COCO 72K + VG 108K）
• 9.18M图文对（含5.39M VG描述 + 1.44M VQA问题）

推理速度：
• Titan Xp GPU单张图片推理时间≈120ms
• 预训练耗时：4卡10天

10min
主要结果（表2）：

任务	VQA	GQA	NLVR2
准确率	72.5%	60.3%	76.2%
提升幅度	+2.1%	+3.2%	+22%

关键分析实验：

命名逻辑：Learning Cross-Modality Encoder Representations from Transformers的缩写，强调跨模态编码器的Transformer架构。
个人思考：

posted @ 2025-05-11 13:08 fariver 阅读(86) 评论(0) 收藏举报

刷新页面返回顶部