什么是视觉语言模型 (VLM)?

视觉语言模型

视觉语言模型(VLM)是一种结合了大语言模型(LLM)*和*视觉编码器的大语言模型,让 AI 能“看图说话”。

VLM 能接收图像/视频 + 文本作为输入,并输出文本结果,比如生成图像描述、回答关于图像的问题,或识别图像/视频中的内容。

传统的计算机视觉的模型 (如yolo) 是基于特定的任务(如分类、检测)或固定的标签集合做任务的。而VLM是基于LLM在大规模图文数据上训练的,能理解自然语言指令并完成多种视觉任务。

用户与 VLM 的交互方式就像使用 LLM(如 ChatGPT)一样,可以提供图文混合的提示,让模型生成回答、总结或解释内容,还能进行多轮对话,并在对话中不断添加新图像。VLM 也能被集成到视觉智能体中,实现复杂视觉任务。

示例图片
图 1:视觉语言模型用例

VLM 架构

大多数视觉语言模型(VLM)由三部分组成:

  1. 视觉编码器:通常是一个基于 transformer 架构的 CLIP(Contrastive Language–Image Pre-training) 模型,该模型已在数百万个图像-文本对进行了训练,具有图像与文本的关联能力。
  2. 投影器(Projector):由一组网络层构成,将视觉编码器的输出转换为 LLM 可以理解的方式,一般解读为图像标记 (tokens)。。
  3. 大语言模型(LLM):用来理解和生成自然语言,几乎所有已有的 LLM 都可以用于构建 VLM。
示例图片
图 2:视觉语言模型的通用三部分架构

视觉语言模型应用场景

VLM 可用于一系列视觉语言任务:

视觉问答

示例图片
图 3:视觉问答用例

●目标检测

示例图片
图 4:物体检测用例

●OCR

示例图片
图 6:文档识别用例

●视频分析

示例图片
图 5:视频分析用例

VLM 示例

以下是一些热门开源的VLM 的示例:

● Qwen2.5-VL: 3B、7B ,32B, 72B

● Qwen2-VL:2B,7B,72B

● Meta LLama3.2:11B, 90B

● Microsoft Phi-3.5 Vision 4B

...

下一步计划

●.在jetson 平台上部署个VLM 进行本地测试,验证两个场景

​ 1)对视频中的机器是否工作做出判断
​ 2) 对物体检测中出错的检测做出识别
​ 3) 在相同的输入下,看哪个VLM模型准确率更高,输出更好

posted @ 2025-05-23 16:30  O-ll-O  阅读(827)  评论(0)    收藏  举报