多模态 - 随笔分类 - 海_纳百川

最容易理解的Swin transformer模型(通俗易懂版)

摘要：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 1. 论文信息原文地址：https://arxiv.org/abs/2103.14030 官网地址：https://github.com/microsof 阅读全文

posted @ 2024-08-25 22:11 海_纳百川阅读(4826) 评论(0) 推荐(0)

vit和swin transformer的区别

摘要：ViT vs Swin Transformer ViT 和 Swin Transformer 的区别 1. 架构设计 ViT (Vision Transformer)： ViT 直接将图像分割成固定大小的非重叠小块（patches），然后将每个小块展开成一个向量，并将这些向量序列作为输入送入标准的T 阅读全文

posted @ 2024-08-24 22:56 海_纳百川阅读(1385) 评论(0) 推荐(0)

多模态里程碑论文（ALBEF、BLIP、BLIP-2）

摘要：1. ALBEF: ALign the image and text BEfore Fusing 1.1 论文与代码链接： https://arxiv.org/abs/2107.07651 GitHub - salesforce/ALBEF: Code for ALBEF: a new 阅读全文

posted @ 2023-05-08 16:58 海_纳百川阅读(1209) 评论(0) 推荐(0)

多模态的一些研究方向

摘要：以下是当今多模态研究的方向视觉 VG：视觉生成 VQA：视觉问答 VC：视觉字幕 VCR：视觉常识性推理分类 MAC:多模态情感计算 NLVC：视频推理的自然语言检索任务 VR：视觉检索（CLIP就属于视觉检索）其他 VLN：视觉语言导航 MMT：多模态机器翻译阅读全文

posted @ 2023-05-08 15:57 海_纳百川阅读(151) 评论(0) 推荐(0)

多模态领域的开源图文数据集(持续更新中20230511)

摘要：Conceptual Caption 简称cc,minigpt4就使用这个数据集,一个大规模的图像文本配对数据集，包含超过30万个图像，每个图像都有5个人工描述。这个数据集的目的是为了促进计算机视觉和自然语言处理之间的研究交叉，可以用于图像检索、视觉问答等任务的训练和评估。 Conceptual C 阅读全文

posted @ 2023-05-08 15:35 海_纳百川阅读(4641) 评论(0) 推荐(0)

多模态的技术发展

摘要：先立个帖子阅读全文

posted @ 2023-05-08 14:21 海_纳百川阅读(17) 评论(0) 推荐(0)

不积跬步无以至千里

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己

随笔分类 - 多模态

公告

不积跬步无以至千里

研究领域：深度学习，图像处理 联系方式：vladimirputin@foxmail.com 不必高看自己，也不必贬低自己

随笔分类 - 多模态

公告

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己