随笔分类 -  多模态

摘要:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 1. 论文信息 原文地址:https://arxiv.org/abs/2103.14030 官网地址:https://github.com/microsof 阅读全文
posted @ 2024-08-25 22:11 海_纳百川 阅读(4826) 评论(0) 推荐(0)
摘要:ViT vs Swin Transformer ViT 和 Swin Transformer 的区别 1. 架构设计 ViT (Vision Transformer): ViT 直接将图像分割成固定大小的非重叠小块(patches),然后将每个小块展开成一个向量,并将这些向量序列作为输入送入标准的T 阅读全文
posted @ 2024-08-24 22:56 海_纳百川 阅读(1385) 评论(0) 推荐(0)
摘要:1. ALBEF: ALign the image and text BEfore Fusing 1.1 论文与代码链接: ​​​​​​https://arxiv.org/abs/2107.07651 GitHub - salesforce/ALBEF: Code for ALBEF: a new 阅读全文
posted @ 2023-05-08 16:58 海_纳百川 阅读(1209) 评论(0) 推荐(0)
摘要:以下是当今多模态研究的方向视觉 VG:视觉生成 VQA:视觉问答 VC:视觉字幕 VCR:视觉常识性推理 分类 MAC:多模态情感计算 NLVC:视频推理的自然语言 检索任务 VR:视觉检索(CLIP就属于视觉检索) 其他 VLN:视觉语言导航 MMT:多模态机器翻译 阅读全文
posted @ 2023-05-08 15:57 海_纳百川 阅读(151) 评论(0) 推荐(0)
摘要:Conceptual Caption 简称cc,minigpt4就使用这个数据集,一个大规模的图像文本配对数据集,包含超过30万个图像,每个图像都有5个人工描述。这个数据集的目的是为了促进计算机视觉和自然语言处理之间的研究交叉,可以用于图像检索、视觉问答等任务的训练和评估。 Conceptual C 阅读全文
posted @ 2023-05-08 15:35 海_纳百川 阅读(4641) 评论(0) 推荐(0)
摘要:先立个帖子 阅读全文
posted @ 2023-05-08 14:21 海_纳百川 阅读(17) 评论(0) 推荐(0)

本站总访问量