摘要: Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 边看边写的。写晕乎了。。 摘要: 当前视觉语言任务常用 大规模预训练模型+多模态表示(这里指image-text pair)。他们结合的比较暴力(图文简单拼接 阅读全文
posted @ 2021-08-17 11:00 Nonmy 阅读(1020) 评论(0) 推荐(0)