BLIP3-o: A Family of Fully Open Unified Multimodal Models

BLIP3-o 是一套完全开源(权重预训练数据集微调数据集)、统一图像理解与生成的大模型家族,采用自回归 + diffusion 架构,并在多项图文任务中取得最优表现.

Q1:为何要用 CLIP 表征图像?
A:CLIP 特征是“语义丰富”的高层次表征,适合图文对齐,也方便统一理解与生成。

Q2:为什么 Flow Matching 比 MSE 更好?
A:MSE 只拟合平均值,结果单一;Flow Matching 模拟完整分布,支持多样化采样,生成更丰富。

Q3:BLIP3-o 跟 GPT-4o 生成图像有何区别?
A:BLIP3-o 是完全开源的统一模型,结构上与 GPT-4o 相似(自回归 + diffusion),但关键设计如 CLIP + Flow Matching 与训练策略更透明且开放。

Q4:指令微调的 60K 数据集解决了什么?
A:解决模型对人类动作、地标、文字等细粒度场景的生成能力不足问题,大幅提升“对齐”与“美感”。


引言

近年来,图像理解(Image Understanding)和图像生成(Image Generation)正逐步融合,但如何构建同时擅长这两类任务的“统一多模态模型”仍是未解之题。BLIP3-o 聚焦关键设计维度——表示方式、训练目标与训练策略——并首次系统性评估不同组合,最终提出高效统一架构,全面开放源码及数据。


动机与设计策略

为什么图文统一模型很重要?

  1. 多模态 AGI 的基石:理解+生成是通用智能的重要能力;
  2. 统一语义空间:理解和生成共享 CLIP 特征,使模型在图文空间中无缝过渡;
  3. 支持 In-context 多轮图文推理:比如图像编辑、视觉对话等无需切换模式。

方法详解

核心架构:Autoregressive + Diffusion + CLIP

BLIP3-o 使用如下三层架构:

  1. 自回归模块:根据文本生成中间视觉特征;
  2. Diffusion Transformer:将这些特征转化为 CLIP 图像特征;
  3. 解码器(SDXL 等):从 CLIP 表征重建真实图像。
描述

方法选择对比:编码器 × 损失函数

编码器类型 训练目标 优点 缺点
CLIP MSE 简单快速,结果稳定 缺乏多样性,输出趋于单一
CLIP Flow Matching 支持随机性,生成多样性高 模型复杂度更高
VAE Flow Matching 重建质量高 表征语义弱,序列长

结论:CLIP + Flow Matching 是最优组合,兼顾效率与质量。

描述

训练策略:联合 vs 顺序

  • 联合训练(Joint):同时优化理解与生成模块;
  • 顺序训练(Sequential):先训练理解,再冻结语言模块,仅训练生成器。

BLIP3-o 采用后者,避免干扰,提升训练效率。

描述

模型实现与训练数据

  • 使用 Qwen2.5-VL-7B 为主干,自回归部分冻结,仅训练 1.4B 的 Diffusion 模块;
  • 预训练阶段覆盖 5500 万图文对,指令微调引入 GPT-4o 生成的 6 万高质量样本,强化在人、物、景、字等维度上的表现;
  • 开放所有数据,包括图文对和指令调优集。

实验结果

图像理解任务

在 9 个主流 benchmark 上(VQAv2、MMBench、MM-Vet 等),BLIP3-o 8B 多项排名第一。

描述

图像生成任务

  • GenEval:得分 0.84(SOTA);
  • DPG-Bench(人类评分):在视觉质量和文本对齐上均优于 Janus Pro;
  • WISE:展示出良好的世界知识推理能力(0.62 分)。
描述

总结与展望

BLIP3-o 是一个开创性的工作,不仅首次系统分析了统一图文模型的设计,还在多个任务中取得领先性能,并将所有代码与数据完全开放。接下来,作者计划将其扩展到图像编辑、视觉对话与视觉推理等更复杂任务。

posted @ 2025-05-17 23:08  WeihangZhang  阅读(123)  评论(0)    收藏  举报