什么是视觉语言模型 (VLM)？

视觉语言模型

视觉语言模型（VLM）是一种结合了大语言模型（LLM）*和*视觉编码器的大语言模型，让 AI 能“看图说话”。

VLM 能接收图像/视频 + 文本作为输入，并输出文本结果，比如生成图像描述、回答关于图像的问题，或识别图像/视频中的内容。

传统的计算机视觉的模型 (如yolo) 是基于特定的任务（如分类、检测）或固定的标签集合做任务的。而VLM是基于LLM在大规模图文数据上训练的，能理解自然语言指令并完成多种视觉任务。

用户与 VLM 的交互方式就像使用 LLM（如 ChatGPT）一样，可以提供图文混合的提示，让模型生成回答、总结或解释内容，还能进行多轮对话，并在对话中不断添加新图像。VLM 也能被集成到视觉智能体中，实现复杂视觉任务。

大多数视觉语言模型（VLM）由三部分组成：

视觉编码器：通常是一个基于 transformer 架构的 CLIP（Contrastive Language–Image Pre-training) 模型，该模型已在数百万个图像-文本对进行了训练，具有图像与文本的关联能力。
投影器（Projector）：由一组网络层构成，将视觉编码器的输出转换为 LLM 可以理解的方式，一般解读为图像标记 (tokens)。。
大语言模型（LLM）：用来理解和生成自然语言，几乎所有已有的 LLM 都可以用于构建 VLM。

VLM 可用于一系列视觉语言任务：

● 视觉问答

●目标检测

●OCR

●视频分析

以下是一些热门开源的VLM 的示例：

● Qwen2.5-VL： 3B、7B ,32B, 72B

● Qwen2-VL：2B，7B，72B

● Meta LLama3.2：11B, 90B

● Microsoft Phi-3.5 Vision 4B

...

●.在jetson 平台上部署个VLM 进行本地测试，验证两个场景

1）对视频中的机器是否工作做出判断
2) 对物体检测中出错的检测做出识别
3) 在相同的输入下，看哪个VLM模型准确率更高，输出更好

posted @ 2025-05-23 16:30 O-ll-O 阅读(1269) 评论(0) 收藏举报

刷新页面返回顶部