摘要: 视觉语言模型(Vision Language Model,VLM)正在改变计算机对视觉和文本信息的理解与交互方式。本文将介绍 VLM 的核心组件和实现细节,可以让你全面掌握这项前沿技术。我们的目标是理解并实现能够通过指令微调来执行有用任务的视觉语言模型。 总体架构 VLM 的总体架构包括: 图像编码 阅读全文
posted @ 2024-11-19 09:49 deephub 阅读(158) 评论(0) 推荐(0)