11 2023 档案
摘要:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generatio Paper 模型参数量 训练数据量 数据集来源 BLIP 224M-361M 14M - 1
阅读全文
摘要:复数 虚数定义 英文名称是imageinary number, 表示虚构的数或者不存在的数。其定义为\(i = \sqrt{-1}\)。 在实数域中,\(\sqrt{-1}\)是没有意义的也不存在。虚数在现实世界并没有实际含义,并不像在实数域中那样,比如实数2,可以表示2个苹果,2只羊,或者2厘米等
阅读全文
摘要:以下是对李宏毅老师 youtube视频-【机器学习2021】概述增强式学习一、二、三简要记录 https://www.youtube.com/watch?v=XWukX-ayIrs https://www.youtube.com/watch?v=US8DFaAZcp4 https://www.you
阅读全文
摘要:图像描述 Image Captioning LAION-5B 2022.3发布的迄今为止最大规模的图文对的多模态数据集。共计约5.85B数据,是基于CLIP过滤的。基于这个大型数据集,作者也发布不同侧重的子集。LAION2B-en是包含英文注释文本的,LAION2B-multi是包含100多种的其它
阅读全文
摘要:图文多模态方向:利用现有强大的预训练图像和语言大模型,冻结其参数并通过可训练模块建立起图像与语言模型间联系,实现对图文数据的联合处理能力。 CoGVLM 结构 整个网络结构由4部分构成: 视觉模型(ViT encoder), 语言模型(LLM), MLP适配器(MLP adapter),视觉专家模块
阅读全文

浙公网安备 33010602011771号