CV大模型和多模态大模型

ci两个向量的点积,或者余弦相似度

CV大模型和多模态大模型区别

多模态大模型与 CV(计算机视觉)大模型的核心区别,本质是 **“处理的信息范围” 与 “核心能力目标” 的差异 **:CV 大模型是 “单模态视觉专家”,专注于解决纯视觉领域问题;而多模态大模型是 “跨模态融合者”,能理解、关联并生成多种类型的信息(如文本、图像、音频等),实现模态间的协同与交互。

CV视觉模型 VS CNN

传统CNN(卷积深度学习算法) 支持小型的固定的数据识别情景:质检,人脸识别,指纹识别。但是Transformer 多头注意力机制可同时识别多维信息, 非常强大泛华能力。

CV大模型采用了NLP领域在2017年提出的Transformer架构,将图片切分
成图像块并转化为文字和位置向量,通过自注意力机制(Self-Attention Mechanism)
赋予不用图像块的注意力权重,最终完成如图像分割、图像识别以及图像生成的各
项机器视觉任务。

2023年 SAM 0 样本泛化,可识别没见过的图片
CV大模型200亿参数,算力要求非常高(NLP 20亿参数),制约了它的应用。 纯CV应用场景不多,一般跟文本和多模态一起使用。

CLIP模型原理
模态对齐
1 图片向量化。图像编码器:可选用 ResNet 或 ViT(Vision Transformer)等。若选择 ResNet(像 ResNet50 或 ResNet101),其通过卷积层逐步提取图像局部特征,经全局平均池化,输出如 512 维的固定维度向量。若采用 ViT,则先将图像分割成 16×16 或 32×32 等尺寸的 patch,利用自注意力机制捕获全局特征,同样能输出设定维度的向量用于后续计算。
2 文本向量化。文本编码器:基于 Transformer 架构,先对输入文本做 tokenize 处理,转化成模型可读取的格式,再经若干 Transformer 层处理,最终输出与图像向量同维度的文本特征向量,一般也常设定为 512 维。其与常见双向 Transformer 不同,CLIP 文本编码器采用因果掩码,更适配生成式文本处理。

图片向量和文本向量做点积运算,通过对比学习。

【为啥所有AI都数不清手指?】https://www.bilibili.com/video/BV1zNt8zzEZX?vd_source=59a915b288a5705e3cc883c926ebb734

参考资料

posted @ 2025-08-23 20:14  向着朝阳  阅读(271)  评论(0)    收藏  举报