[PaperReading] LLaVA: Visual Instruction Tuning

LLaVA: Visual Instruction Tuning

link
时间:23.12
单位:University of Wisconsin–Madison, Microsoft Research, Columbia University
相关领域:多模态
作者相关工作:
Haotian Liu
被引次数:8566
项目主页:https://llava-vl.github.io/

TL;DR

使用GPT4生成图文跟随数据集,并使用这些数据训练了首个端到端的图文理解大模型LLaVA(Large Language and Vision Assistant)。实验证明LLaVA在未见过场景表现出类似GPT4的智能效果,并且在指令跟随测试集上达到GPT4的85%的水平。

Data

instruction-following data的示例: 针对数据集中每张图片(例如COCO),会将Captions与Boxes等纯文本信息输入给GPT,让其生成三种不同类型的“指令-遵循”数据。
数据量:
15.8W图文对,其中5.8W是对话数据,2.3W是细节描述,7.7W是复杂推理。对比了ChatGPT与GPT4,发现GPT4的推理结果更准确。
Q: 如何保证GPT4在生成数据时不会生成不符合图片内容的数据?
A: 多条字幕(例如 COCO同一图片有5个Captions):从不同角度描述了同一场景,这为GPT-4提供了交叉验证的信息,形成了一个比较全面的场景理解。
image

ScienceQA多模态测试集

多模态 (Multimodal): 很多问题都包含视觉上下文 (Visual Context)。这意味着要正确回答问题,模型必须能够理解:

  • 文本: 问题本身、背景知识描述。
  • 图像: 科学图表、实验示意图、照片等。
    例如,一个关于电路的物理题,会附带一张电路图。
    丰富的注解与解释 (Rich Annotations & Explanations): 这是ScienceQA最关键、最独特的价值所在。对于每一道题,数据集不仅提供了正确答案,还提供了:
  • 详细的讲解 (Lecture): 解释这道题背后涉及的科学原理和背景知识。
  • 解题思路 (Solution): 提供一个循序渐进、符合逻辑的思维链 (Chain-of-Thought, CoT),来展示如何一步步推导出正确答案。
    广泛的学科覆盖 (Broad Subject Coverage):
    数据集涵盖了3个主要学科: 自然科学 (Natural Science)、社会科学 (Social Science)、语言科学 (Language Science)。
    细分到26个主题、127个类别和379种技能,覆盖了从小学到高中的知识范围。

Method

image

视觉Encoder:ViT-L/14
语言模型:Vicuna, 13B (一个基于 LLaMA 模型进行指令微调(Instruction Fine-tuned)而来的开源对话模型)

训练阶段 目的 视觉编码器 (Vision Encoder, CLIP) 投影矩阵 (Projection Matrix, W) 语言模型 (Language Model, LLM)
第一阶段 特征对齐 冻结 (Frozen) 训练 (Trainable) 冻结 (Frozen)
第二阶段 指令微调 冻结 (Frozen) 训练 (Trainable) 训练 (Trainable)

训练数据
第一阶段:从CC3M数据集中过滤出的595K个图文对。使用“朴素扩展法”转换成单轮问答。
第二阶段:作者们使用GPT-4生成的158K条高质量、多样化的指令数据(包含对话、描述、推理)。

多轮对话

第一轮输入 图像\(X_v\)与文本信息\(X_q\),后续每轮只需输入\(X_q\)
image
损失计算:
在训练时,模型被要求根据到当前为止的所有上下文(包括之前的问答和图片),来预测 Assistant: 后面的回答内容。
损失函数只计算 Assistant: 部分的预测误差。模型在预测 Human: 部分时是不计算损失的。这确保了模型只学习如何“扮演”好助手的角色。

Experiment

image

image

效果可视化

image

总结与思考

相关链接

https://zhuanlan.zhihu.com/p/647782091
https://zhuanlan.zhihu.com/p/624071363

posted @ 2025-08-22 22:11  fariver  阅读(27)  评论(0)    收藏  举报