Qwen2.5-VL 技术报告
https://arxiv.org/abs/2502.13923
https://github.com/QwenLM/Qwen2.5-VL
摘要
我们介绍 Qwen2.5-VL,这是 Qwen 视觉-语言系列的最新旗舰模型,展示了基础能力和创新功能方面的显著进步。Qwen2.5-VL 在通过增强的视觉识别、精确的物体定位、强大的文档解析和长视频理解等方面实现了重大突破。Qwen2.5-VL 的一个突出特点是能够使用边界框或点准确地定位物体。它能从发票、表单和表格中提取稳健的结构化数据,以及对图表、图示和布局进行详细分析。为了处理复杂的输入,Qwen2.5-VL 引入了动态分辨率处理和绝对时间编码,使其能够处理不同大小的图像和长达数小时的视频,实现秒级事件定位。这使得该模型能够感知空间尺度和时间动态,而无需依赖传统的归一化技术。通过从头训练一个具有 Window Attention 的原生动态分辨率视觉变换器(ViT),我们显著减少了计算开销,同时保持了原生分辨率。因此,Qwen2.5-VL 不仅在静态图像和文档理解方面表现出色,还作为一个交互式视觉代理,能够在现实场景中进行推理、工具使用和任务执行,如操作计算机和移动设备。该模型在不同领域中表现出强大的泛化能力,无需特定任务的微调。Qwen2.5-VL 提供三种不同大小的模型,以满足从边缘 AI 到高性能计算的各种应用场景。旗舰型号 Qwen2.5-VL-72B 的性能与 GPT-4o 和 Claude 3.5 Sonnet 等最先进模型相当,尤其在文档和图示理解方面表现出色。较小的 Qwen2.5-VL-7B 和 Qwen2.5-VL-3B 模型也超越了同类竞争对手,在资源受限的环境中表现出色。此外,Qwen2.5-VL 保持了强大的语言性能,保留了 Qwen2.5 大型语言模型的核心语言能力。

引言
大型视觉-语言模型(LVLMs)(OpenAI, 2024; Anthropic, 2024a; Team et al., 2023; Wang et al., 2024f)代表了人工智能领域的重要突破,标志着多模态理解和交互的变革性方法。通过将视觉感知与自然语言处理无缝结合,这些先进的模型正在从根本上重塑机器在不同领域中对复杂信息的解释和分析方式。尽管多模态大型语言模型取得了显著进展,但这些模型的当前能力可以比作夹心饼干的中间层——在各种任务中表现出色,但未能达到卓越的性能。细粒度视觉任务构成了这一类比的基础层。在Qwen2.5-VL的这一版本中,我们致力于探索细粒度感知能力,旨在为LVLMs建立坚实的基础,并为实际应用创造一个强有力的增强器。框架的顶层是多模态推理,这通过利用最新的Qwen2.5语言模型和采用多模态问答数据构建得以增强。
一系列工作促进了多模态大型模型的发展,这些工作涉及架构设计、视觉输入处理和数据管理。LVLMs进展的主要推动力之一是架构的持续创新。在(Alayrac et al., 2022; Li et al., 2022a; 2023b; Liu et al., 2023b;a; Wang et al., 2024i; Zhang et al., 2024b; Wang et al., 2023)中提出的研究成果逐步塑造了当前的范式,该范式通常由视觉编码器、跨模态投影器和大型语言模型组成。细粒度感知模型已成为另一个关键领域。(Xiao et al., 2023; Liu et al., 2023c; Ren et al., 2024; Zhang et al., 2024a;d; Peng et al., 2023; Deitke et al., 2024)等模型在详细视觉理解方面推动了界限的扩展。Omni(Li et al., 2024g; 2025b; Ye et al., 2024)和MoE(Riquelme et al., 2021; Lee et al., 2024; Li et al., 2024h;c; Wu et al., 2024b)的架构也启发了LVLMs的未来演变。对视觉编码器的改进(Chen et al., 2023; Liu et al., 2024b; Liang et al., 2025)和分辨率标度的优化(Li et al., 2023c; Ye et al., 2023; Li et al., 2023a)在提高实际视觉理解质量方面发挥了关键作用。使用更多样化场景和更高质量的数据进行数据管理是训练先进LVLMs的重要步骤。(Guo et al., 2024; Chen et al., 2024d; Liu et al., 2024a; Chen et al., 2024a; Tong et al., 2024; Li et al., 2024a)中提出的努力为此项工作作出了宝贵的贡献。
然而,尽管取得了显著进展,但视觉-语言模型目前仍面临发展瓶颈,包括计算复杂性、上下文理解有限、细粒度视觉感知不足以及在不同序列长度上的性能不一致。
在本报告中,我们介绍了最新的工作 Qwen2.5-VL,该工作延续了 Qwen 系列的开源理念,在各种基准测试中达到了甚至超过了顶级闭源模型的表现。技术上,我们的贡献分为四个方面:
- 窗口注意力机制:我们在视觉编码器中实现了窗口注意力机制,以优化推理效率。
- 动态 FPS 采样:我们引入了动态 FPS 采样,将动态分辨率扩展到时间维度,实现了在不同采样率下对视频的全面理解。
- 时间域升级的 MRoPE:我们在时间域中升级了 MRoPE,通过与绝对时间对齐,促进了更复杂的时间序列学习。
- 数据质量与规模提升:我们在数据的质量和数量方面进行了大量努力,进一步将预训练语料库的规模从 1.2 万亿个 token 扩展到 4.1 万亿个 token。
Qwen2.5-VL 的闪亮特性:
- 强大的文档解析能力:Qwen2.5-VL 将文本识别升级为全文档解析,擅长处理多场景、多语言和各种内置(手写、表格、图表、化学公式和乐谱)文档。
- 跨格式的精确对象定位:Qwen2.5-VL 提高了检测、指向和计数对象的精度,支持绝对坐标和 JSON 格式,以进行高级空间推理。
- 超长视频理解与细粒度视频定位:我们的模型将动态分辨率扩展到了时间维度,增强了对长达数小时视频的理解能力,并能在秒级提取事件片段。
- 增强的计算与移动设备代理功能:利用先进的定位、推理和决策能力,提升了模型在智能手机和计算机上的代理功能。
方法
在本节中,我们首先概述Qwen2.5-VL系列模型的架构更新,并提供数据和训练细节的概览。
模型架构
Qwen2.5-VL的整体模型架构由三个组件组成:
大语言模型:Qwen2.5-VL系列采用大语言模型作为其基础组件。该模型使用Qwen2.5 LLM的预训练权重进行初始化。为了更好地满足多模态理解的需求,我们将1D RoPE(旋转变换位置嵌入)修改为基于绝对时间对齐的多模态旋转变换位置嵌入。
视觉编码器:Qwen2.5-VL的视觉编码器采用重新设计的视觉变换器(ViT)架构。在结构上,我们引入了2D-RoPE和窗口注意力机制,以支持原始输入分辨率并加速整个视觉编码器的计算。在训练和推理过程中,输入图像的高度和宽度会被调整为28的倍数,然后输入到ViT中。视觉编码器通过以14的步长将图像分割成块,生成一组图像特征。我们将在2.1.1节中详细介绍视觉编码器。
基于MLP的视觉-语言融合器:为了应对图像特征长序列带来的效率挑战,我们采用了一种简单而有效的方法,在将特征序列输入大语言模型(LLM)之前进行压缩。具体来说,我们不是直接使用视觉变换器(ViT)提取的原始块特征,而是首先将空间上相邻的四个块特征分组。这些分组的特征随后被拼接并通过两层多层感知机(MLP)投影到与LLM中使用的文本嵌入维度一致的维度。这种方法不仅降低了计算成本,还提供了一种灵活的方式来动态压缩长度不一的图像特征序列。
在表1中,详细列出了Qwen2.5-VL的架构和配置。

快速高效的视觉编码器
视觉编码器在多模态大语言模型(MLLMs)中发挥着核心作用。为应对训练和推理过程中因原生分辨率输入导致的计算负载不平衡问题,我们重新设计了视觉变换器(ViT)架构。一个关键问题在于处理不同尺寸图像时伴随的二次计算复杂度。为缓解这一问题,我们在大多数层引入了窗口注意力,确保计算成本随补丁数量线性增长而非二次增长。在我们的架构中,只有四层采用全自注意力,其余层则使用最大窗口尺寸为112×112(对应8×8补丁)的窗口注意力。小于112×112的区域在处理时不会进行填充,从而保持其原始分辨率。这种设计使模型能够在输入分辨率下原生运行,避免不必要的缩放或失真。
对于位置编码,我们采用2D旋转位置嵌入(RoPE)来有效捕捉二维空间中的空间关系。此外,为了更好地处理视频输入,我们将方法扩展到三维补丁划分。具体来说,我们使用14×14的图像补丁作为基本单元,与传统用于静态图像的ViT保持一致。对于视频数据,我们将两个连续的帧组合在一起,显著减少了输入语言模型的标记数量。这种设计不仅与现有架构保持兼容,还提高了处理顺序视频数据时的效率。
为了简化整体网络结构,我们使ViT架构更接近大语言模型(LLMs)的设计原则。具体而言,我们采用RMSNorm(Zhang & Sennrich, 2019)进行归一化,并使用SwiGLU(Dauphin et al., 2017)作为激活函数。这些选择不仅提高了计算效率,还增强了模型视觉和语言组件之间的兼容性。
在训练方面,我们从头开始训练重新设计的ViT。训练过程包括多个阶段,如CLIP预训练、视觉-语言对齐以及端到端微调。为确保在不同输入分辨率下具有鲁棒性,我们在训练过程中采用原生分辨率下的动态采样。图像根据其原始宽高比随机采样,使模型能够有效地泛化到不同分辨率的输入。这种方法不仅提高了模型的适应性,还确保了不同大小视觉数据的稳定高效训练。
原生动态分辨率和帧率
Qwen2.5-VL 在空间和时间维度上引入了改进,以更有效地处理多样的多模态输入。
在空间域,Qwen2.5-VL 动态地将不同大小的图像转换为具有相应长度的标记序列。与传统方法规范化坐标不同,我们的模型直接使用输入图像的实际尺寸来表示边界框、点和其他空间特征。这使得模型能够内在地学习尺度信息,从而提高其处理不同分辨率图像的能力。
对于视频输入,Qwen2.5-VL 引入了动态帧率(FPS)训练和绝对时间编码。通过适应可变的帧率,模型能够更好地捕捉视频内容的时间动态。不同于其他方法通过文本时间戳或使用额外的头部来实现时间定位,我们引入了一种新颖且高效的策略,即直接将 MRoPE ID 与时间戳对齐。这种方法使模型能够通过时间维度 ID 之间的间隔理解时间的节奏,而无需任何额外的计算开销。
对齐绝对时间的多模态旋转位置嵌入
位置嵌入对于建模视觉和语言模态的序列数据至关重要。基于 Qwen2-VL 中引入的多模态旋转位置嵌入(MRoPE),我们扩展了其功能,以更好地处理视频中的时间信息。Qwen2-VL 中的 MRoPE 将位置嵌入分解为三个不同的组件:时间、高度和宽度,以有效建模多模态输入。对于文本输入,所有三个组件使用相同的位置 ID,使得 MRoPE 在功能上等同于传统的 1D RoPE(Su 等,2024)。对于图像,时间 ID 在视觉标记中保持不变,而高度和宽度组件根据图像中每个标记的空间位置分配唯一的 ID。在处理视频时,视频被视为帧序列,时间 ID 随每帧递增,高度和宽度组件则遵循与静态图像相同的分配模式。
然而,在 Qwen2-VL 中,MRoPE 中的时间位置 ID 与输入帧数绑定,这没有考虑到内容变化的速度或视频内事件的绝对时间。为了解决这一局限性,Qwen2.5-VL 引入了关键改进:将 MRoPE 的时间组件与绝对时间对齐。如图1所示,通过利用时间 ID 之间的间隔,模型能够跨不同 FPS 采样率的视频学习一致的时间对齐。

预训练
在这一节中,我们首先描述预训练数据集的构建,然后概览整个训练流程和配置。
预训练数据
与 Qwen2-VL 相比,我们大幅扩展了预训练数据的规模,从 1.2 万亿个 token 增加到约 4 万亿个 token。我们的预训练数据集是通过多种方法构建的,包括清理原始网络数据、合成数据等。数据集涵盖了多种多模态数据,如图像标题、图文交织数据、光学字符识别(OCR)数据、视觉知识(例如名人、地标、动植物识别)、多模态学术问题、本地化数据、文档解析数据、视频描述、视频本地化和基于代理的交互数据。在整个训练过程中,我们仔细调整了不同阶段这些数据类型的组成和比例,以优化学习效果。
交错图像-文本数据 交错图像-文本数据对于多模态学习至关重要,主要提供了三个关键优势:
- 通过同时提供视觉和文本线索实现上下文学习(Alayrac et al., 2022),
- 在图像缺失时仍能保持强大的文本能力(Lin et al., 2024),
- 包含广泛的一般信息。
然而,许多可用的交错数据缺乏有意义的文本-图像关联,且往往杂乱,限制了其在复杂推理和创意生成中的实用性。
为解决这些挑战,我们开发了一种评分和清理数据的管道,确保仅使用高质量、相关的交错数据。我们的过程分为两个步骤:标准数据清理(Li et al., 2024e)和使用内部评估模型的四阶段评分系统。评分标准包括:(1)文本质量,(2)图像-文本相关性,(3)图像-文本互补性,(4)信息密度平衡。这种细致的方法提高了模型在复杂推理和生成连贯多模态内容方面的能力。
以下是这些图像-文本评分标准的描述:
- 图像-文本相关性:分数越高,表示图像与文本之间的连接越强,图像不仅装饰文本,而是有意义地补充、解释或扩展文本。
- 信息互补性:分数越高,表示图像与文本之间的互补信息越多。每一部分都应提供独特的细节,共同形成一个完整的故事。
- 信息密度平衡:分数越高,表示图像与文本之间的信息分布越均衡,避免了信息过多或过少,确保两者之间的适当平衡。
基于绝对位置坐标的地面数据校准 我们采用原生分辨率训练,旨在更准确地感知世界。相比之下,相对坐标无法有效表示图像中对象的原始大小和位置。为了解决这一限制,Qwen2.5-VL 在训练过程中使用基于输入图像实际尺寸的坐标值来表示边界框和点。这种方法确保模型能够更好地捕捉对象的真实世界尺度和空间关系,从而在对象检测和定位等任务中提高性能。
为了提高地面能力的泛化性,我们开发了一个包括边界框和带指代表达式的点的综合数据集,这些数据集利用了公开可用的数据集和专有数据。我们的方法包括将数据合成为各种格式,如 XML、JSON 和自定义格式,采用的技术包括复制粘贴扩增(Ghiasi 等,2021)和使用现成模型如 Grounding DINO(Liu 等,2023c)和 SAM(Kirillov 等,2023)进行合成。这种方法有助于更稳健的地面能力评估和提升。
为了提高模型在开放词汇检测中的性能,我们将训练数据集扩展到包括超过 10,000 个对象类别。此外,为提高模型在极端对象检测场景中的有效性,我们在查询中合成了不存在的物体类别,并构建了每个物体包含多个实例的图像数据。
为了确保模型具备出色的基于点的对象地面能力,我们构建了一个包含公开可用和合成数据的综合指针数据集。具体而言,数据源包括来自 PixMo(Deitke 等,2024)的公共指针和计数数据、公共对象地面数据(来自对象检测和实例分割任务)以及通过自动化管道生成的精确指针数据,这些数据指向某些图像细节。
文档全解析数据 为了训练 Qwen2.5-VL,我们合成了一个大型文档数据语料库。传统的文档内容解析方法通常依赖于单独的模型来处理布局分析、文本提取、图表解释和插图处理。相比之下,Qwen2.5-VL 旨在使通用模型具备全面解析、理解和转换文档格式的能力。具体而言,我们在文档中引入了多种元素,如表格、图表、方程式、自然或合成图像、乐谱和化学公式。这些元素统一以 HTML 格式格式化,将布局框信息和插图描述整合到 HTML 标签结构中。我们还根据典型的阅读顺序丰富了文档布局,并在基于 HTML 的真实数据中包含每个模块(如段落和图表)的坐标。这种创新方法使得任何文档的所有信息,包括其布局、文本、图表和插图,能够以标准化和统一的方式表示。因此,Qwen2.5-VL 实现了多模态文档元素的无缝集成,从而促进更高效和准确的文档理解和转换。
以下是 QwenVL 的 HTML 格式:

该格式确保所有文档元素以结构化和可访问的方式呈现,从而实现Qwen2.5-VL的有效处理和理解。
OCR数据 为了提高OCR性能,我们从不同来源收集并整理了数据,包括合成数据、开源数据和内部收集的数据。合成数据通过视觉文本生成引擎生成高质量的文本图像。为了支持更广泛的语言并增强多语言处理能力,我们整合了一个大规模的多语言OCR数据集。该数据集支持多种语言,如法语、德语、意大利语、西班牙语、葡萄牙语、阿拉伯语、俄语、日语、韩语和越南语。数据集经过精心整理,确保多样性和高质量,利用高质量的合成图像和真实世界的自然场景图像。这种组合确保了在各种语言环境下具有强大的性能,并提高了模型对不同文本外观和环境条件的适应性。对于图表类型的数据,我们使用包括matplotlib、seaborn和plotly在内的可视化库合成了100万个样本,涵盖了条形图、关系图和热图等图表类别。关于表格数据,我们通过离线端到端表格识别模型处理了600万个真实世界样本,随后过滤掉低置信度表格、重叠表格和单元格密度不足的表格。
视频数据 为了在处理具有不同帧率(FPS)的视频数据时提高鲁棒性,我们在训练过程中动态采样FPS,以在训练数据集中获得更均匀分布的FPS表示。此外,对于超过半小时的视频,我们专门构建了一套长视频字幕,通过定向合成管道合成了多帧字幕。关于视频定位数据,我们以秒为单位和小时-分钟-秒-帧(hmsf)格式制定了时间戳,确保模型能够准确理解和输出各种格式的时间。
智能体数据 为了增强Qwen2.5-VL的感知和决策能力,我们在移动、Web和桌面平台上收集了截图。使用合成数据引擎生成截图字幕和UI元素定位注释。字幕任务帮助Qwen2.5-VL理解图形界面,而定位任务帮助它对齐元素的外观和功能。对于决策,我们首先将移动、Web和桌面平台上的操作统一为具有共享动作空间的函数调用格式。我们从开源数据中收集了一组多步轨迹,并通过代理框架(Wang等人,2025;2024b;c)在虚拟环境中合成了这些轨迹,将其重新格式化为函数格式。我们进一步通过人工和模型注释者(Xu等人,2024)为每一步生成推理过程。具体来说,给定一个真实操作,我们在截图上高亮显示。然后,我们提供全局查询以及此操作前后的截图,要求注释者撰写推理内容来解释此操作的意图。使用基于模型的过滤器筛选出低质量的推理内容。这种推理内容防止Qwen2.5-VL对真实操作过拟合,并使其在现实场景中更加鲁棒。
训练方法
我们使用DataComp (Gadre等, 2023) 和一些内部数据集从头训练了一个视觉变换器 (ViT),作为视觉编码器的初始化,并利用预训练的Qwen2.5大语言模型 (LLM) (Yang等, 2024a) 作为LLM组件的初始化。如表2所示,预训练过程分为三个不同的阶段,每个阶段采用不同的数据配置和训练策略,逐步提升模型的能力。

在第一阶段,仅训练视觉变换器 (ViT),以提高其与语言模型的对齐性,为多模态理解打下坚实的基础。此阶段的主要数据来源包括图像标题、视觉知识和OCR数据。这些数据集经过精心选择,旨在培养ViT提取有意义的视觉表示的能力,这些表示可以与文本信息有效结合。
在第二阶段,所有模型参数解冻,并在多样化的多模态图像数据集上进行训练,以增强模型处理复杂视觉信息的能力。此阶段引入了更多复杂和推理密集型的数据集,如交错数据、多任务学习数据集、视觉问答 (VQA)、多模态数学、基于代理的任务、视频理解和纯文本数据集。这些数据集加强了模型在视觉和语言模态之间建立更深层次联系的能力,使其能够处理越来越复杂的任务。
在第三阶段,为了进一步提升模型在更长序列、视频和基于代理的数据上的推理能力,引入了这些数据,并增加了序列长度。这样做使模型能够更精确地应对更高级和复杂的多模态任务。通过延长序列长度,模型获得了处理扩展上下文的能力,这特别有利于需要长程依赖和复杂推理的任务。
为了解决图像大小和文本长度不同带来的计算负载不平衡问题,我们采用了优化训练效率的策略。主要的计算成本来自LLM和视觉编码器。鉴于视觉编码器的参数相对较少,且我们引入了窗口注意力机制以进一步降低其计算需求,我们专注于在不同GPU上平衡LLM的计算负载。具体而言,我们根据输入序列的长度动态地打包数据样本以确保一致的计算负载。在第一和第二阶段,数据被统一打包到序列长度为8,192,而在第三阶段,序列长度增加到32,768,以适应模型处理更长序列的增强能力。
后训练
Qwen2.5-VL 的后训练对齐框架采用了一个双阶段优化范式,包括监督微调(SFT)和直接偏好优化(DPO)(Rafailov等,2023)。这种层次化的对齐策略将参数高效的领域适应与人类偏好提炼结合起来,通过不同的优化目标解决表征基础和行为改进的问题。
监督微调(SFT)旨在通过有针对性的指令优化,弥合预训练表征与下游任务需求之间的差距。在此阶段,我们采用ChatML格式(OpenAI,2024)来结构化指令跟随数据,有意偏离预训练数据模式,同时保持与Qwen2-VL(Wang等,2024e)的架构一致性。这种格式的转换实现了三个关键的适应:1)显式的对话角色标记以实现多模态交替,2)与文本指令并行注入视觉嵌入,3)通过格式感知打包保持跨模态位置关系。通过在这种增强模式下暴露模型于精心策划的多模态指令-响应对,SFT能够实现有效的知识迁移,同时保持预训练特征的完整性。
指令数据
监督微调(SFT)阶段采用了一套精心策划的数据集,旨在增强模型在不同模态下的指令跟随能力。该数据集包含约200万条记录,其中纯文本数据(50%)和多模态数据(50%)均匀分布,后者包括图像-文本和视频-文本组合。多模态数据的纳入使模型能够有效处理复杂的输入。值得注意的是,虽然纯文本和多模态条目在数量上相等,但多模态条目由于嵌入的视觉和时间信息,在训练中消耗更多的标记和计算资源。数据集主要由中文和英文数据组成,辅以多语言条目以支持更广泛的语种多样性。
数据集的结构反映了对话复杂性的不同层次,包括单轮对话和多轮对话。这些对话进一步通过情景进行上下文化,从单图像输入到多图像序列,从而模拟现实的对话动态。查询来源主要来自开源存储库,同时还有精心策划的购买数据集和在线查询数据的补充。这种组合确保了广泛覆盖并增强了数据集的代表性。
为了应对广泛的应用场景,数据集包括专门的子集,涵盖通用视觉问答(VQA)、图像描述生成、数学问题解决、编程任务和安全相关查询。此外,还构建了专门的数据集,以增强文档和光学字符识别(Doc和OCR)、定位、视频分析和代理交互的领域特定能力。有关数据的详细信息可以在论文的相关部分找到。这种结构化和多样化的构成确保SFT阶段能够有效地将预训练表征与下游多模态任务的细微需求对齐,促进模型在鲁棒性和上下文感知方面的表现。
数据过滤管道
训练数据的质量是影响视觉-语言模型性能的关键因素。开源和合成数据集通常表现出显著的差异性,经常包含噪声、冗余或低质量的样本。因此,严格的清理和过滤流程对于解决这些问题至关重要。低质量的数据会导致预训练表示与下游任务需求之间的次优对齐,从而削弱模型有效处理复杂多模态任务的能力。因此,确保高质量的数据对于实现稳健可靠的模型性能至关重要。
为此,我们实施了一个两阶段的数据过滤管道,旨在系统地提高监督微调(SFT)数据集的质量。该管道包含以下阶段:
第一阶段:领域特定分类
在初始阶段,我们使用Qwen2-VL-Instag,这是一种从Qwen2-VL-72B派生出的专门分类模型,对问题-答案(QA)对进行层级分类。该模型将QA对分为八个主要领域,如编码和规划,这些领域进一步细分为30个细分类别。例如,主要领域编码细分为代码调试、代码生成、代码翻译和代码理解等子类别。这种层级结构便于领域感知和子领域感知的过滤策略,使管道能够优化每个类别的特定特性的清理过程。因此,这提高了监督微调(SFT)数据集的质量和相关性。
第二阶段:领域定制过滤
第二阶段涉及领域定制过滤,整合了基于规则和基于模型的方法,以全面提高数据质量。鉴于文档处理、光学字符识别(OCR)和视觉定位等领域的多样性,每个领域可能需要独特的过滤策略。以下,我们概述了这些领域中应用的一般过滤策略。
基于规则的过滤使用预定义的启发式方法来消除低质量或有问题的条目。具体而言,对于与文档处理、OCR和视觉定位任务相关的数据集,识别并移除重复模式,以防止模型学习过程的失真并确保最佳性能。此外,排除包含不完整、截断或格式不正确的响应的条目,这些条目在合成数据集和多模态上下文中较为常见。为了保持相关性和遵守道德标准,与任务无关或可能导致有害输出的查询和答案也会被丢弃。这种结构化的方法确保数据集遵守道德准则并满足特定任务的要求。
基于模型的过滤通过利用在Qwen2.5VL系列上训练的奖励模型进一步完善数据集。这些模型从多个维度评估多模态QA对。查询根据复杂性和相关性进行评估,仅保留适当具有挑战性和上下文相关性的示例。答案根据正确性、完整性、清晰性、与查询的相关性和帮助性进行评估。在视觉定位任务中,特别关注验证视觉信息的准确解释和利用。这种多维度评分确保只有高质量的数据才能进入SFT阶段。
拒绝采样以增强推理能力
为了补充我们的结构化数据过滤管道,我们采用拒绝采样作为一种策略来精炼数据集,从而增强视觉-语言模型(VLM)的推理能力。这种方法对于需要复杂推理的任务尤其关键,如数学问题求解、代码生成和领域特定的视觉问答(VQA)。先前的研究表明,结合链式思维(CoT)推理(Wei 等, 2022)显著提高了模型的推理性能。(DeepSeek-AI 等, 2024)我们的后训练实验也证实了这一点,强调了结构化推理过程对于实现高质量结果的重要性。
拒绝采样过程从包含真实标注的数据集开始。这些数据集经过精心策划,包括需要多步骤推理的任务,如数学问题求解、代码生成和领域特定的 VQA。使用 Qwen2.5-VL 模型的中间版本,我们评估生成的响应与真实标注的匹配情况。只有模型的输出与预期答案匹配的样本才会被保留,确保数据集仅包含高质量、准确的示例。
为了进一步提高数据质量,我们应用额外的约束来过滤不理想的输出。具体来说,我们排除了表现出代码切换、过长或重复模式的响应。这些标准确保了 CoT 推理过程的清晰和连贯,这对于下游应用至关重要。
将 CoT 推理应用于视觉-语言模型的一个关键挑战是它们对文本和视觉模态的依赖。中间推理步骤可能未能充分整合视觉信息,要么忽略相关视觉线索,要么误解它们。为了解决这一问题,我们开发了基于规则和模型驱动的过滤策略,以验证中间推理步骤的准确性。这些机制确保每个 CoT 过程中的步骤都能有效地整合视觉和文本模态。尽管如此,实现最优模态对齐仍然是一个持续的挑战,需要进一步的发展。
通过拒绝采样生成的数据显著提高了模型的推理能力。通过迭代精炼数据集并移除低质量或错误的样本,我们使模型能够从高保真示例中学习,这些示例强调准确和连贯的推理。该方法不仅增强了模型处理复杂任务的能力,还为未来的视觉-语言建模改进奠定了基础。
训练方案
Qwen2.5-VL 的后训练过程分为两个阶段:监督微调(SFT)和直接偏好优化(DPO),且在这两个阶段中,视觉变换器(ViT)的参数始终保持冻结。在 SFT 阶段,模型在多样化的多模态数据上进行微调,这些数据包括从一般视觉问答(VQA)、拒绝采样(Rejection Sampling)和专门数据集(如文档和光学字符识别、基础模型、视频和代理相关任务)中获取的图像-文本对、视频和纯文本。DPO 阶段则专注于图像-文本和纯文本数据,利用偏好数据使模型与人类偏好对齐,每个样本仅处理一次,以确保高效的优化。这一简化的过程不仅提升了模型的跨模态推理和任务特定性能,还保持了与用户意图的对齐。
实验
在本节中,我们首先介绍整体模型,并将其与当前的最先进(SoTA)模型进行比较。然后,我们评估该模型在各种子能力上的表现。

与最先进模型的比较
实验部分评估了Qwen2.5-VL在多种数据集上的性能,并将其与最先进模型如Claude-3.5-Sonnet-0620(Anthropic,2024a)、GPT-4o-0513(OpenAI,2024)、InternVL2.5(Chen等,2024d)以及不同规模的Qwen2-VL(Wang等,2024e)进行了比较。在大学水平问题中,Qwen2.5-VL-72B在MMMU(Yue等,2023)上的得分为70.2。对于MMMUPro(Yue等,2024),Qwen2.5-VL-72B得分为51.1,超过了之前的开源最先进模型,并且性能与GPT-4o相当。
在与数学相关的任务中,Qwen2.5-VL-72B表现出强大的能力。在MathVista(Lu等,2024)上,其得分为74.8,超过了之前开源最先进模型的72.3分。对于MATH-Vision(Wang等,2024d),Qwen2.5-VL-72B得分为38.1,而MathVerse(Zhang等,2024c)得分为57.6,两者均显示出与其它领先模型相当的结果。
在综合视觉问答方面,Qwen2.5-VL-72B在多个基准测试中表现出色。在MMbenchEN(Liu等,2023d)上,其得分为88.6,稍微超过了之前的最佳分数88.3。该模型在MuirBench(Wang等,2024a)上的得分为70.7,在BLINK(Fu等,2024c)上的得分为64.4,表现良好。在MTVQA(Tang等,2024)的多语言能力评估中,Qwen2.5-VL-72B得分为31.7,展示了其强大的多语言文本识别能力。在主观评估如MMVet(Yu等,2024)和MM-MT-Bench(Agrawal等,2024)中,Qwen2.5-VL-72B得分分别为76.2和7.6,表现出色的自然对话体验和用户满意度。
纯文本任务的性能
为了批判性地评估指令调优模型在纯文本任务上的性能,如表4所示,我们选择了几个具有代表性的基准测试,以评估模型在多个领域的表现,包括一般任务(Wang 等, 2024j;Gema 等, 2024;White 等, 2024)、数学和科学任务(Rein 等, 2023;Hendrycks 等, 2021;Cobbe 等, 2021)、编程任务(Chen 等, 2021;Cassano 等, 2023)以及对齐任务(Zhou 等, 2023)。我们将 Qwen2.5-VL 与几个规模类似的大型语言模型(LLMs)进行了比较。结果表明,Qwen2.5-VL 不仅在多模态任务上达到了最先进的(SoTA)性能,而且在纯文本任务上也表现出色,展示了其在不同评估标准下的多样性和稳健性。

定量结果
通用视觉问答
为了全面评估模型在通用视觉问答(VQA)和对话方面的能力,我们在多个多样化的数据集上进行了广泛的实验。如表3所示,Qwen2.5-VL 在各种 VQA 任务、主观评价、多语言场景和多图像问题中表现出色。具体而言,它在多个基准数据集上表现出色,包括 MMBench 系列(Liu 等,2023d)、MMStar(Chen 等,2024c)、MME(Fu 等,2023)、MuirBench(Wang 等,2024a)、BLINK(Fu 等,2024c)、CRPE(Wang 等,2024h)、HallBench(Guan 等,2023)、MTVQA(Tang 等,2024)、MME-RealWorld(Zhang 等,2024f)、MMVet(Yu 等,2024)和 MM-MT-Bench(Agrawal 等,2024)。
在视觉细节理解和推理领域,Qwen2.5-VL-72B 在 MMBench-EN-V1.1 数据集上取得了 88.4% 的准确率,超越了之前的最先进模型,如 InternVL2.5(78B)和 Claude-3.5 Sonnet-0620。同样,在 MMStar 数据集上,Qwen2.5-VL 获得了 70.8% 的分数,胜过此基准中的其他领先模型。这些结果突显了模型在不同语言环境下的强大稳健性和适应性。
此外,在高分辨率现实场景中,特别是在 MME-RealWorld 基准上,Qwen2.5-VL 以 63.2 的得分展示了其广泛的现实环境适应能力。另外,在 MuirBench 数据集上评估的多图像理解任务中,Qwen2.5-VL 也取得了 70.7 的领先分数,进一步突显了其卓越的泛化能力。总体而言,这些结果表明 Qwen2.5-VL 在处理各种场景下的通用视觉问答(VQA)任务方面具有强大的多功能性和有效性。
值得注意的是,即使是规模较小的 Qwen2.5-VL 版本,如 Qwen2.5-VL-7B 和 Qwen2.5-VL-3B,也表现出高度竞争力。例如,在 MMStar 数据集上,Qwen2.5-VL-7B 达到了 63.9%,而 Qwen2.5-VL-3B 获得了 55.9%。这表明 Qwen2.5-VL 的架构不仅强大,而且具有可扩展性,即使在参数较少的情况下也能保持强大的性能。
文档理解与OCR
我们在多种OCR、图表和文档理解基准上评估了我们的模型。

表5展示了Qwen2.5-VL模型与顶级模型在以下OCR相关基准上的性能比较:AI2D(Kembhavi等,2016)、TextVQA(Singh等,2019)、DocVQA(Mathew等,2021b)、InfoVQA(Mathew等,2021a)、ChartQA(Masry等,2022)、CharXiv(Wang等,2024k)、SEED-Bench-2-Plus(Li等,2024b)、OCRBench(Liu等,2023e)、OCRBench_v2(Fu等,2024b)、CC-OCR(Yang等,2024b)、OmniDocBench(Ouyang等,2024)、VCR(Zhang等,2024e)。
对于多场景、多语言及各种内置(手写、表格、图表、化学公式和数学表达式)文档的OCR相关解析基准,如CC-OCR和OmniDocBench,Qwen2.5-VL-72B模型由于精心挑选的训练数据和LLM模型的卓越能力,设定了新的最先进水平。在场景文本、图表、图示和文档理解的OCR相关基准上,Qwen2.5-VL模型表现出色,具有良好的理解能力。特别地,在涉及信息图的OCRBench、InfoVQA及涵盖图表、地图和网页等文本丰富场景的SEED-Bench-2-Plus等综合OCR理解基准上,Qwen2.5-VL-72B取得了显著的成绩,显著优于InternVL2.5-78B等强劲竞争对手。
此外,在包括广泛OCR相关解析和理解任务的OCRBench_v2等综合OCR基准上,Qwen2.5-VL模型也实现了最佳性能,分别在英文和中文赛道上比最佳模型Gemini 1.5-Pro高出9.6%和20.6%。
空间理解
理解空间关系对于开发能够像人类一样解释和与世界互动的AI模型至关重要。在大型视觉-语言模型中,视觉定位允许基于自然语言查询或描述精确定位和识别图像中的特定对象、区域或元素。这一能力超越了传统的目标检测,通过建立视觉内容与语言上下文之间的语义关系,促进了更加细腻和情境化的视觉推理。我们评估了Qwen2.5-VL在引用表达理解基准(Kazemzadeh等人,2014;Mao等人,2016)、野外目标检测(Li等人,2022b)、自定义点定位基准和CountBench(Paiss等人,2023)上的定位能力。
我们将Qwen2.5-VL的视觉定位能力与其他领先的大型视觉-语言模型进行了比较,包括Gemini、Grounding-DINO(Liu等人,2023c)、Molmo(Deitke等人,2024)和InternVL2.5。Qwen2.5-VL在不同的基准测试中表现出色,从框定位、点定位到计数。通过同时具备框定位和点定位能力,Qwen2.5-VL能够理解、定位并推理图像中特定部分的细节。在开放词汇目标检测方面,Qwen2.5-VL在ODinW-13上达到了43.1 mAP的良好性能,超过了大多数大型视觉-语言模型,并迅速缩小了通用模型和专业模型之间的差距。此外,Qwen2.5-VL还解锁了基于点的定位能力,可以精确地定位过去难以通过边界框表示的特定对象的细节。Qwen2.5-VL的计数能力也取得了显著进展,在CountBench上使用“检测然后计数”风格的提示时,Qwen2.5-VL-72B达到了93.6%的领先准确率。
视频理解和定位
我们在一系列多样化的视频理解和定位任务中评估了我们的模型,使用了包括几秒到几小时不等长度的视频基准测试。

表8展示了Qwen2.5-VL模型与顶级商用模型在以下视频基准测试中的性能对比:Video-MME(Fu等,2024a)、Video-MMMU(Hu等,2025)、MMVU(Zhao等,2025)、MVBench(Li等,2024d)、MMBench-Video(Fang等,2024)、LongVideoBench(Wu等,2024a)、EgoSchema(Mangalam等,2023)、PerceptionTest(Patraucean等,2024)、MLVU(Zhou等,2024)、LVBench(Wang等,2024g)、TempCompass(Liu等,2024c)和Charades-STA(Gao等,2017)。值得注意的是,在评估长视频理解能力的LVBench和MLVU基准测试中,通过问答任务评估,Qwen2.5-VL-72B取得了显著的成绩,明显优于如GPT-4o等强劲的竞争对手。
通过使用提议的同步MRoPE,Qwen2.5-VL在时间敏感的视频理解方面提升了其能力,包括改进的时间戳引用、时间定位、密集字幕以及更多的功能。在评估准确 localization 事件或活动能力的Charades-STA数据集上,Qwen2.5-VL-72B取得了50.9的mIoU得分,超过了GPT-4o的性能。对于所有评估的基准测试,我们将每个视频分析的最大帧数限制为768帧,总视频 token 数不超过24,576。
代理
在多模态模型中,代理能力对于使这些模型能够有效地与现实世界设备互动至关重要。我们从多个方面评估了Qwen2.5-VL的代理能力。UI 元素的定位通过 ScreenSpot (Cheng et al., 2024) 和 ScreenSpot Pro (Li et al., 2025a) 进行评估。离线评估在 Android Control (Li et al., 2024f) 上进行,而在线评估则在包括 AndroidWorld (Rawles et al., 2024)、MobileMiniWob++ (Rawles et al., 2024) 和 OSWorld (Xie et al., 2025) 的平台上进行。我们比较了 Qwen2.5-VL-72B 与其他知名模型(如 GPT-4o (OpenAI, 2024)、Gemini 2.0 (Deepmind, 2024)、Claude (Anthropic, 2024b)、Aguvis-72B (Xu et al., 2024) 和 Qwen2-VL-72B (Wang et al., 2024e))的性能。结果见表 9。

Qwen2.5-VL-72B 在 GUI 定位基准测试中表现出显著的进步。它在 ScreenSpot 上的准确率达到 87.1%,与 Gemini 2.0 (84.0%) 和 Claude (83.0%) 相比具有竞争力,同时在 ScreenSpot Pro 上的准确率达到 43.6%,远超 Aguvis-72B (23.6%) 和其基底模型 Qwen2-VL-72B (1.6%),设立了一个新的标准。借助这些卓越的定位能力,Qwen2.5-VL-72B 在所有离线评估基准测试中均大幅超越基线模型。在在线评估中,由于基线模型的定位能力有限,难以完成任务,因此我们对这些模型的输入应用了 Set-of-Mark (SoM)。结果表明,Qwen2.5-VL-72B 在 AndroidWorld 和 MobileMiniWob++ 上的表现优于基线模型,并在 OSWorld 上的在线评估中在没有辅助标记的情况下达到了可比的性能。这一观察结果表明,Qwen2.5-VL-72B 能够作为代理在真实和动态的环境中运行。
结论
我们推出了Qwen2.5-VL,这是一系列最先进的视觉-语言模型,实现了在多模态理解和交互方面的重大进展。Qwen2.5-VL在视觉识别、目标定位、文档解析和长视频理解方面表现出色,适用于静态和动态任务。其原生的动态分辨率处理和绝对时间编码技术能够稳健处理各种输入,而窗口注意力机制在不牺牲分辨率保真度的情况下减少了计算开销。Qwen2.5-VL适用于从边缘AI到高性能计算的广泛应用场景。旗舰版Qwen2.5-VL-72B在文档和图表理解方面匹配甚至超越了GPT-4o和Claude 3.5 Sonnet等领先模型,同时在纯文本任务上保持了强劲的性能。较小的Qwen2.5-VL-7B和Qwen2.5-VL-3B变体在性能上也超过了同规模的竞争对手,提供了高效性和灵活性。Qwen2.5-VL为视觉-语言模型树立了新的基准,展示了其在各个领域的卓越泛化能力和任务执行能力。其创新为更加智能和互动的系统铺平了道路,将感知与实际应用紧密连接。

浙公网安备 33010602011771号