Qwen3 技术报告

https://github.com/QwenLM/Qwen3

核心创新:

Qwen3 的“思维模式融合”是通过以下几个关键技术手段实现的:

  1. 持续监督微调(SFT)
    在已经具备推理能力的模型(经过推理RL训练)上,继续用包含“思维”和“非思维”两类数据的混合数据集进行SFT。

    • “思维”数据:用第二阶段模型对第一阶段查询拒绝采样生成,保证推理能力不退化。
    • “非思维”数据:精心筛选,涵盖编程、数学、指令、多语言、创意写作等多任务,并用自动化检查表保证质量。
  2. 统一聊天模板与标记机制
    设计了统一的聊天模板,通过在用户输入或系统消息中插入/think和/no think标志,明确指示模型采用“思维”或“非思维”模式。

    • 对于“非思维”样本,助手响应中保留空的思维块,保证格式一致性。
    • 多轮对话中,模型根据最后一个标志切换模式,支持灵活动态切换。
  3. 思维预算机制
    训练后,模型自然具备了“中间态”能力:当思维过程达到用户设定的Token上限时,模型会自动停止推理并输出当前最佳解。这种能力并非显式训练,而是融合训练的自然产物。

  4. 多轮混合与泛化能力提升
    在多轮对话训练中,随机插入/think和/no think标志,提升模型在复杂场景下的模式切换和泛化能力。

总结:Qwen3 通过混合SFT数据、统一模板和标记、思维预算机制,以及多轮混合训练,使模型能够在“思维”和“非思维”两种模式间无缝切换,并支持用户动态控制推理深度。这一融合极大提升了模型的灵活性和实用性。

摘要

在本工作中,我们介绍了Qwen3,这是Qwen模型系列的最新版本。Qwen3包含一系列旨在提升性能、效率和多语言能力的大规模语言模型(LLMs)。Qwen3系列包括密集型架构和混合专家(MoE)架构的模型,参数规模从0.6亿到2350亿不等。Qwen3的一个关键创新是将思考模式(用于复杂、多步骤推理)和非思考模式(用于快速、情境驱动的响应)整合到一个统一的框架中。这消除了在不同模型之间切换的需求——例如,针对聊天优化的模型(如GPT-4o)和专门的推理模型(如QwQ32B)——并能够根据用户查询或聊天模板动态切换模式。同时,Qwen3引入了思考预算机制,允许用户在推理过程中适应性地分配计算资源,从而根据任务复杂度平衡延迟和性能。此外,通过利用旗舰模型的知识,我们显著减少了构建小型模型所需的计算资源,同时确保了它们具有高度竞争力的性能。实证评估表明,Qwen3在包括代码生成、数学推理、代理任务等在内的各种基准测试中取得了最先进的结果,与较大的MoE模型和专有模型具有竞争力。与前代Qwen2.5相比,Qwen3将多语言支持从29种扩展到119种语言和方言,通过改进的跨语言理解和生成能力提升了全球可访问性。为了促进可重复性和社区驱动的研究与开发,所有Qwen3模型均在Apache 2.0许可下公开可用。

引言

追求通用人工智能(AGI)或超级人工智能(ASI)长期以来一直是人类的目标。近年来,大型基础模型(如 GPT-40 (OpenAI, 2024)、Claude 3.7 (Anthropic, 2025)、Gemini 2.5 (DeepMind, 2025)、DeepSeek-V3 (Liu et al., 2024a)、Llama-4 (Meta-AI, 2025) 和 Qwen2.5 (Yang et al., 2024b))的进展表明,我们正朝着这一目标取得显著进展。这些模型在跨多个领域和任务的数万亿个标记的大型数据集上进行训练,有效地将其参数中的知识和能力提炼出来。此外,最近在推理模型上的发展,通过强化学习进行优化,突显了基础模型在推理时间扩展和实现更高智能水平的潜力,例如 o3 (OpenAI, 2025) 和 DeepSeek-R1 (Guo et al., 2025)。虽然大多数最先进的模型仍然是专有的,但开源社区的快速发展已大幅缩小了开源模型与闭源模型之间的性能差距。值得注意的是,越来越多的顶级模型(如 Meta-AI, 2025;Liu et al., 2024a;Guo et al., 2025;Yang et al., 2024b)现在作为开源模型发布,促进更广泛的人工智能研究和创新。

在本工作中,我们介绍了 Qwen3,这是我们基础模型系列 Qwen 的最新版本。Qwen3 是一系列开放式权重的大语言模型(LLMs),在各种任务和领域中表现卓越。我们发布了密集型和专家混合(MoE)模型,参数数量从 60 亿到 2350 亿不等,以满足不同下游应用的需求。特别是,旗舰模型 Qwen3-235B-A22B 是一个 MoE 模型,总参数量为 2350 亿,每个标记激活参数为 22 亿。这一设计确保了高性能和高效推理。

Qwen3 引入了若干关键改进,以增强其功能和可用性。首先,它将两种不同的操作模式,即思考模式和非思考模式,集成到单个模型中。这允许用户在不同模式之间切换而无需更换模型,例如从 Qwen2.5 切换到 QwQ (Qwen Team, 2024)。这种灵活性确保开发人员和用户可以高效地适应模型行为以应对特定任务。此外,Qwen3 引入了思考预算,为用户提供了对模型在任务执行过程中应用的推理努力的细粒度控制。这种能力对于优化计算资源和性能至关重要,使模型的思考行为能够适应现实世界应用中的不同复杂性。此外,Qwen3 已在 36 万亿个标记的数据集上进行了预训练,涵盖 119 种语言和方言,有效增强了其多语言能力。这种广泛的语言支持扩大了其在全球应用和国际应用中的部署潜力。这些改进共同确立了 Qwen3 作为前沿开源大语言模型系列的地位,能够有效应对各种领域和语言中的复杂任务。

Qwen3 的预训练过程利用了一个包含约36 万亿个标记的大规模数据集,经过精心整理以确保语言和领域的多样性。为了高效地扩展训练数据,我们采用了多模态方法:Qwen2.5-VL (Bai et al., 2025) 进行微调以从大量 PDF 文档中提取文本。我们还使用领域特定模型生成合成数据:Qwen2.5-Math (Yang et al., 2024c) 用于数学内容,Qwen2.5-Coder (Hui et al., 2024) 用于与代码相关的内容。预训练过程分为三个阶段。

  • 在第一阶段,模型在约 30 万亿个标记上进行训练,以建立强大的一般知识基础。
  • 在第二阶段,它在知识密集型数据上进一步训练,以提高科学技术工程数学(STEM)以及编程领域的推理能力。
  • 在第三阶段,模型在长上下文数据上进行训练,以将最大上下文长度从 4,096 个标记增加到 32,768 个标记。

为了更好地使基础模型与人类偏好和下游应用对齐,我们采用了多阶段的后训练方法,以增强思考(推理)和非思考模式。在前两个阶段,我们通过长链推理(CoT)冷启动微调聚焦数学和编程任务的强化学习来培养强大的推理能力。在最后两个阶段,我们将带有和不带推理路径的数据组合成一个统一的数据集进行进一步微调,使模型能够有效处理这两类输入,并应用一般领域的强化学习以提高在广泛下游任务中的性能。对于较小的模型,我们采用从强到弱的蒸馏方法,利用较大模型的离线和在线知识转移来增强其能力。从高级教师模型进行蒸馏在性能和训练效率方面显著优于强化学习。

我们在多个任务和领域的全面基准测试中评估了模型的预训练和后训练版本。实验结果显示,我们的基础预训练模型达到了最先进的性能。无论是思考模式还是非思考模式,后训练模型在与领先的专有模型和大型专家混合(MoE)模型(如 o1、o3-mini 和 DeepSeek-V3)的竞争中表现出色。值得注意的是,我们的模型在编程、数学和代理相关任务中表现出色。例如,旗舰模型 Qwen3-235B-A22B 在 AIME’24 中得分为 85.7,在 AIME’25 中得分为 81.5 (AIME, 2025),在 LiveCodeBench v5 (Jain et al., 2024) 中得分为 70.7,在 CodeForces 中得分为 2,056,在 BFCL v3 (Yan et al., 2024) 中得分为 70.8。此外,Qwen3 系列中的其他模型也表现出与其规模相匹配的强劲性能。此外,我们观察到增加思考标记的思考预算可以显著提高模型在各种任务中的性能。

在接下来的部分中,我们将描述模型架构的设计,提供其训练过程的详细信息,展示预训练和后训练模型的实验结果,并最终总结本技术报告的关键发现,展望未来研究的潜在方向。

架构

Qwen3 系列包括 6 个密集模型,即 Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B 和 Qwen3-32B,以及 2 个 MoE 模型,Qwen3-30B-A3B 和 Qwen3-235B-A22B。旗舰模型 Qwen3-235B-A22B 拥有总计 235B 参数,其中 22B 参数被激活。下文我们将详细介绍 Qwen3 模型的架构。Qwen3 密集模型的架构与 Qwen2.5(Yang 等,2024b)类似,包括使用分组查询注意力(GQA,Ainslie 等,2023)、SwiGLU(Dauphin 等,2017)、旋转位置编码(RoPE,Su 等,2024)和带有预归一化的 RMSNorm(Jiang 等,2023)。此外,我们去除了 Qwen2(Yang 等,2024a)中使用的 QKV 偏置,并引入 QK-Norm(Dehghani 等,2023)到注意力机制中,以确保 Qwen3 训练的稳定性。模型架构的关键信息如表 1 所示。
img
Qwen3 MoE 模型与 Qwen3 密集模型共享相同的底层架构。模型架构的关键信息如表 2 所示。我们遵循 Qwen2.5-MoE(Yang 等,2024b)并实现细粒度的专家分割(Dai 等,2024)。Qwen3 MoE 模型总共有 128 个专家,每个 token 激活 8 个专家。与 Qwen2.5-MoE 不同,Qwen3-MoE 设计中不包含共享专家。此外,我们采用了全局批次负载平衡损失(Qiu 等,2025),以促进专家的特化。这些架构和训练创新在下游任务中显著提升了模型性能。

Qwen3 模型使用 Qwen 的分词器(Bai 等,2023),该分词器实现了字节级别的字节对编码(BBPE,Brown 等,2020;Wang 等,2020;Sennrich 等,2016),词汇表大小为 151,669。

预训练

在本节中,我们描述了预训练数据的构建、预训练方法的详细信息,并展示了在标准基准上评估基础模型的实验结果。

预训练数据

与Qwen2.5(杨等,2024b)相比,我们显著扩大了训练数据的规模和多样性。具体而言,我们收集的预训练令牌数量翻了一番,涵盖了三倍多的语言。所有Qwen3模型都在一个由119种语言和方言组成的大规模且多样化的数据集上进行了训练,总共有36万亿个令牌。该数据集包括各种领域的高质量内容,如编码、STEM(科学、技术、工程和数学)、推理任务、书籍、多语言文本和合成数据。

为了进一步扩展预训练数据语料库,我们首先使用Qwen2.5-VL模型(白等,2025)对大量类似PDF的文档进行文本识别。识别出的文本随后使用Qwen2.5模型(杨等,2024b)进行 refine,以提高其质量。通过这一两步流程,我们能够获得额外的数万亿高质量文本令牌。此外,我们使用Qwen2.5(杨等,2024b)、Qwen2.5-Math(杨等,2024c)和Qwen2.5-Coder(惠等,2024)模型合成不同格式的数万亿文本令牌,包括教科书、问答、指令和代码片段,涵盖数十个领域。最后,我们通过引入更多的多语言数据和新语言进一步扩展预训练语料库。与Qwen2.5中使用的预训练数据相比,支持的语言数量从29种显著增加到119种,增强了模型的语言覆盖范围和跨语言能力。

我们开发了一个多语言数据注释系统,旨在提升训练数据的质量和多样性。该系统已应用于我们的大规模预训练数据集,对多维数据(如教育价值、领域、领域和安全性)进行了超过30万亿个令牌的注释。这些详细的注释支持更有效的数据过滤和组合。与以往研究(谢等,2023;范等,2023;刘等,2024b)在数据源或领域层面优化数据混合不同,我们的方法通过在小代理模型上进行广泛的消融实验,使用细粒度的数据标签在实例层面优化数据混合。

预训练阶段

Qwen3 模型通过三阶段过程进行预训练:

  • (1)通用阶段(S1):在第一预训练阶段,所有 Qwen3 模型使用 4,096 个令牌的序列长度训练超过 30 万亿个令牌。在此阶段,模型在语言能力和通用世界知识方面得到了全面的预训练,训练数据覆盖了 119 种语言和方言。
  • (2)推理阶段(S2):为了进一步提高推理能力,我们通过增加 STEM、编程、推理和合成数据的比例来优化此阶段的预训练语料库。模型以大约 5 万亿个更高质量的令牌进行进一步预训练,序列长度为 4,096 个令牌。在此阶段,我们还加快了学习率的衰减速率。
  • (3)长上下文阶段:在最终预训练阶段,我们收集高质量的长上下文语料库,以扩展 Qwen3 模型的上下文长度。所有模型以 32,768 个令牌的序列长度预训练数百亿个令牌。长上下文语料库中,75% 的文本长度在 16,384 到 32,768 个令牌之间,25% 的文本长度在 4,096 到 16,384 个令牌之间。遵循 Qwen2.5(杨等,2024b),我们使用 ABF 技术(熊等,2023)将 RoPE 的基频从 10,000 增加到 1,000,000。同时,我们引入 YARN(彭等,2023)和双块注意力机制(DCA,安等,2024),以在推理过程中将序列长度容量提高四倍。

与 Qwen2.5(杨等,2024b)类似,我们根据上述三个预训练阶段开发了最优超参数(如学习率调度器和批量大小)预测的缩放定律。通过广泛的实验,我们系统地研究了模型架构、训练数据、训练阶段和最优训练超参数之间的关系。最终,我们为每个密集型或 MoE 模型设定了预测的最优学习率和批量大小策略。

预训练评估

我们对Qwen3系列的基础语言模型进行了全面评估。基础模型的评估主要关注其在通用知识、推理、数学、科学知识、编程和多语言能力方面的表现。预训练基础模型的评估数据集包括15个基准测试:

  • 一般任务:MMLU (Hendrycks 等, 2021a)(5-shot),MMLU-Pro (Wang 等, 2024)(5-shot, CoT),MMLU-redux (Gema 等, 2024)(5-shot),BBH (Suzgun 等, 2023)(3-shot, CoT),SuperGPQA (Du 等, 2025)(5-shot, CoT)。
  • 数学和STEM任务:GPQA (Rein 等, 2023)(5-shot, CoT),GSM8K (Cobbe 等, 2021)(4-shot, CoT),MATH (Hendrycks 等, 2021b)(4-shot, CoT)。
  • 编程任务:EvalPlus (Liu 等, 2023a)(0-shot)(HumanEval (Chen 等, 2021)、MBPP (Austin 等, 2021)、Humaneval+、MBPP+的平均值),MultiPL-E (Cassano 等, 2023)(0-shot)(Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript),MBPP-3-shot (Austin 等, 2021),CRUXEval的CRUX-O (1-shot) (Gu 等, 2024)。
  • 多语言任务:MGSM (Shi 等, 2023)(8-shot, CoT),MMMLU (OpenAI, 2024)(5-shot),INCLUDE (Romanou 等, 2024)(5-shot)。

对于基础模型的基线,我们将Qwen3系列基础模型与Qwen2.5基础模型(Yang 等, 2024b)及其他领先的开源基础模型进行了比较,包括DeepSeek-V3 Base (Liu 等, 2024a)、Gemma-3 (Team 等, 2025)、Llama-3 (Dubey 等, 2024)和Llama-4 (Meta-AI, 2025)系列基础模型,比较内容包括参数规模。所有模型都使用相同的评估流程和广泛使用的评估设置,以确保公平比较。

评估结果总结 基于总体评估结果,我们突显了Qwen3基础模型的一些关键结论:

  1. 与先前开源的SOTA密集和MoE基础模型(如DeepSeekV3 Base、Llama-4-Maverick Base和Qwen2.5-72B-Base)相比,Qwen3-235B-A22B-Base在大多数任务中表现出色,其总参数或激活参数显著较少。
  2. 对于Qwen3 MoE基础模型,我们的实验结果表明:
    • a) 使用相同的预训练数据,Qwen3 MoE基础模型只需1/5的激活参数即可实现与Qwen3密集基础模型相似的性能。
    • b) 由于Qwen3 MoE架构的改进、训练令牌规模的扩大和更先进的训练策略,Qwen3 MoE基础模型只需1/2的激活参数和更少的总参数即可超越Qwen2.5 MoE基础模型。
    • c) 即使激活参数仅为Qwen2.5密集基础模型的1/10,Qwen3 MoE基础模型也能实现相当的性能,这为我们带来了显著的推理和训练成本优势。
  3. Qwen3密集基础模型的总体性能与在更高参数规模下的Qwen2.5基础模型相当。例如,Qwen3-1.7B/4B/8B/14B/32B-Base分别在性能上可与Qwen2.5-3B/7B/14B/32B/72B-Base匹敌。特别是在STEM、编程和推理基准测试中,Qwen3密集基础模型在更高参数规模下甚至超越了Qwen2.5基础模型。

详细结果如下。

我们比较了Qwen3-235B-A22B-Base与我们先前的类似规模的MoE模型Qwen2.5-Plus-Base(Yang等,2024b)以及其他领先的开源基础模型:Llama-4-Maverick(Meta-AI,2025),Qwen2.5-72B-Base(Yang等,2024b),DeepSeek-V3 Base(Liu等,2024a)。从表3的结果来看,Qwen3-235B-A22B-Base模型在大多数评估基准上获得了最高的性能分数。我们进一步将Qwen3-235B-A22B-Base与其它基线模型分别进行详细比较。
img

  • (1) 与最近开源的模型Llama-4-Maverick-Base相比,尽管后者参数量约为前者的两倍,Qwen3-235B-A22B-Base在大多数基准测试中仍表现出色。

  • (2) 与先前的最先进开源模型DeepSeek-V3-Base相比,Qwen3-235B-A22B-Base在15项评估基准中的14项上表现更优,而其参数总量仅约为DeepSeek-V3-Base的1/3,激活参数约为2/3,这展示了我们模型的强大性和成本效益。

  • (3) 与我们先前的类似规模的MoE模型Qwen2.5-Plus相比,Qwen3-235B-A22B-Base在较少的参数和激活参数下显著优于前者,这显示了Qwen3在预训练数据、训练策略和模型架构方面的显著优势。

  • (4) 与我们先前的旗舰开源密集模型Qwen2.5-72B-Base相比,Qwen3-235B-A22B-Base在所有基准测试中均超越后者,并且使用的激活参数少于1/3。同时,由于模型架构的优势,Qwen3-235B-A22B-Base在每万亿个令牌的推理成本和训练成本上远低于Qwen2.5-72B-Base。

Qwen3-32B-Base 是 Qwen3 系列中最大的密集模型。我们将其与类似规模的基线模型进行比较,包括 Gemma-3-27B(Team 等,2025)和 Qwen2.5-32B(Yang 等,2024b)。此外,我们引入了两个强大的基线模型:最近开源的 MoE 模型 Llama4-Scout,其参数数量是 Qwen3-32B-Base 的三倍,但激活参数数量仅为一半;以及我们之前的主要开源密集模型 Qwen2.5-72B-Base,其参数数量是 Qwen3-32B-Base 的两倍多。结果如表 4 所示,支持以下三个关键结论:
img

  • (1)与类似规模的模型相比,Qwen3-32B-Base 在大多数基准测试中优于 Qwen2.5-32B-Base 和 Gemma-3-27B Base。值得注意的是,Qwen3-32B-Base 在 MMLUPro 中取得 65.54 分,在 SuperGPQA 中取得 39.78 分,显著优于其前代模型 Qwen2.5-32B-Base。此外,Qwen3-32B-Base 在所有基线模型的编码基准测试得分上显著更高。

  • (2)令人惊讶的是,我们发现 Qwen3-32B-Base 与 Qwen2.5-72B-Base 相比,表现具有竞争力。尽管 Qwen3-32B-Base 的参数数量不到 Qwen2.5-72B-Base 的一半,但在 15 个评估基准中的 10 个中超过了 Qwen2.5-72B-Base。在编码、数学和推理基准测试中,Qwen3-32B-Base 表现尤为突出。

  • (3)与 Llama-4-Scout-Base 相比,Qwen3-32B-Base 在所有 15 个基准测试中均显著优于后者,尽管其参数数量仅为 Llama-4-Scout-Base 的三分之一,但激活参数数量是其两倍。

Qwen3-14B-Base 与 Qwen3-30B-A3B-Base 的评估与类似规模的基线模型进行了比较,包括 Gemma-3-12B Base 和 Qwen2.5-14B Base。同样,我们引入了两个强大的基线模型:(1)Qwen2.5-Turbo(Yang et al., 2024b),该模型具有 42B 参数和 6B 激活参数。注意其激活参数是 Qwen3-30B-A3B-Base 的两倍。(2)Qwen2.5-32B-Base,其激活参数是 Qwen3-30B-A3B 的 11 倍,超过 Qwen3-14B 的两倍。结果如表 5 所示,可以得出以下结论:
img

  • (1)与规模相似的模型相比,Qwen3-14B-Base 在所有 15 个基准测试中均显著优于 Qwen2.5-14B-Base 和 Gemma-3-12B-Base。

  • (2)类似地,Qwen3-14B-Base 在参数少于一半的情况下,与 Qwen2.5-32B-Base 相比也取得了非常有竞争力的结果。

  • (3)Qwen3-30B-A3B 仅有 1/5 的非嵌入激活参数,在所有任务上显著优于 Qwen2.5-14B-Base,并且在性能上与 Qwen3-14B-Base 和 Qwen2.5-32B-Base 相当,这为我们带来了显著的推理和训练成本优势。

对于边缘侧模型 Qwen3-8B / 4B / 1.7B / 0.6B-Base,我们将其与类似规模的 Qwen2.5、Llama-3 和 Gemma-3 基线模型进行了比较。结果如表 6、表 7 和表 8 所示。所有 Qwen3 8B / 4B / 1.7B / 0.6B-Base 模型在几乎所有基准测试中都保持了强大的性能。值得注意的是,Qwen3-8B / 4B / 1.7B-Base 模型在超过一半的基准测试中甚至超过了更大规模的 Qwen2.5-14B / 7B / 3B Base 模型,特别是在 STEM 相关和编程基准测试中,这反映了 Qwen3 模型的显著改进。
img
img
img

后训练

Qwen3 的后训练管道经过战略性设计,具有两个核心目标:

  • (1)思维控制:这涉及整合两种不同的模式,即“非思考”模式和“思考”模式,为用户提供灵活性,选择模型是否应进行推理,并通过指定思维过程的 Token 预算来控制思维深度
  • (2)强到弱蒸馏:旨在简化和优化轻量级模型的后训练过程。通过利用大规模模型的知识,我们大幅减少了构建小规模模型所需的计算成本和开发工作。
    img
    如图 1 所示,Qwen3 系列的旗舰模型遵循一个复杂的四阶段训练过程。前两个阶段专注于开发模型的“思考”能力。接下来的两个阶段旨在将强大的“非思考”功能集成到模型中。

初步实验表明,直接将教师模型的输出 logits 蒸馏到轻量级学生模型中,可以有效提升其性能,同时保持对其推理过程的精细控制。这种方法消除了为每个小规模模型单独进行详尽的四阶段训练过程的必要性。它不仅提高了即时性能,如更高的 Pass@1 分数所示,还提高了模型的探索能力,如改进的 Pass@64 结果所反映。此外,这种方法在训练效率上也取得了显著提升,所需的 GPU 小时数仅为四阶段训练方法的 1/10。在接下来的部分中,我们将介绍四阶段训练过程,并详细解释强到弱蒸馏方法。

长链思维冷启动

我们首先整理了一个涵盖广泛类别的全面数据集,包括数学、编码、逻辑推理和一般的STEM问题。数据集中每个问题都配有经过验证的参考答案或基于代码的测试用例。该数据集是长链思维(long-CoT)训练“冷启动”阶段的基础。

数据集构建涉及一个严格的两阶段过滤过程:查询过滤和响应过滤。在查询过滤阶段,我们使用Qwen2.5-72B-Instruct来识别并移除那些不易验证的查询。这包括包含多个子问题或要求进行通用文本生成的查询。此外,我们还排除了Qwen2.5-72B-Instruct无需使用链思维(CoT)推理即可正确回答的查询。这有助于防止模型依赖于表面的猜测,并确保只有需要更深层次推理的复杂问题被包括在内。我们还使用Qwen2.5-72B-Instruct标注每个查询的领域,以保持数据集在各领域的平衡代表性。

在保留验证查询集后,我们使用QwQ-32B(Qwen团队,2025)为每个剩余查询生成N个候选响应。当QwQ-32B持续无法生成正确的解决方案时,人类标注者手动评估响应的准确性。对于通过Pass@N的查询,进一步应用严格的过滤标准,以移除(1)最终答案错误的响应,(2)包含大量重复的响应,(3)明显表现出没有充分理由的猜测的响应,(4)思考内容与总结内容不一致的响应,(5)涉及不恰当的语言混合或风格转变的响应,或(6)疑似与潜在验证集项过于相似的响应。随后,精心挑选的经过精炼的数据集子集用于初始的冷启动训练,以构建基础的推理模式。这个阶段的目标是在不过分强调立即推理性能的情况下,培养模型的基础推理模式。这种方法确保模型的潜力不会受到限制,为后续的强化学习(RL)阶段提供了更大的灵活性和改进空间。为了有效实现这一目标,最好在准备阶段尽量减少训练样本的数量和训练步骤。

推理强化学习(Reasoning RL)

用于推理强化学习阶段的查询-验证器对必须满足以下四个标准:(1) 未在冷启动阶段使用。 (2) 冷启动模型可以学习。 (3) 尽可能具有挑战性。 (4) 覆盖广泛的子领域。我们最终收集了总共 3,995 个查询-验证器对,并使用 GRPO(Shao 等,2024)更新模型参数。我们观察到,使用较大的批量和每个查询的高数量的 rollout,结合离策略训练以提高采样效率,对训练过程是有益的。我们还解决了如何通过控制模型的熵逐步增加或保持稳定来平衡探索和利用的问题,这对于保持稳定的训练至关重要。因此,在单次强化学习运行过程中,我们在训练奖励和验证性能方面实现了持续的改进,无需对超参数进行任何手动干预。例如,Qwen3-235B-A22B 模型的 AIME'24 分数从 70.1 增加到 85.1,总计经过了 170 次强化学习训练步骤。

思维模式融合

思维模式融合阶段的目标是将“非思维”能力整合到先前开发的“思维”模型中。这一方法允许开发人员管理和控制推理行为,同时减少了为思维任务和非思维任务部署单独模型的成本和复杂性。为了实现这一目标,我们在推理RL模型上进行了持续的监督微调(SFT),并设计了一个聊天模板以融合两种模式。此外,我们发现能够熟练处理两种模式的模型在不同的思维预算下表现一致良好。

SFT数据集构建。SFT数据集结合了“思维”和“非思维”数据。为了确保第二阶段模型的性能不会因额外的SFT而受损,“思维”数据是通过使用第二阶段模型对第一阶段查询进行拒绝采样生成的。“非思维”数据则经过精心筛选,涵盖了多种任务,包括编程、数学、指令执行、多语言任务、创意写作、问题回答和角色扮演。此外,我们使用自动生成的检查表来评估“非思维”数据的响应质量。为了提高低资源语言任务的性能,我们特别增加了翻译任务的比例。

聊天模板设计。为了更好地整合两种模式并使用户能够动态切换模型的思维过程,我们为Qwen3设计了聊天模板,如表9所示。具体而言,对于思维模式和非思维模式的样本,我们在用户查询或系统消息中分别引入了/think和/no think标志。这使得模型能够根据用户的输入选择适当的思维模式。对于非思维模式的样本,我们在助手的响应中保留了一个空的思维块。这一设计确保了模型内部格式的一致性,并允许开发人员通过在聊天模板中连接一个空的思维块来防止模型参与思维行为。默认情况下,模型以思维模式运行;因此,我们添加了一些用户查询中未包含/think标志的思维模式训练样本。对于更复杂的多轮对话,我们随机在用户的查询中插入多个/think和/no think标志,模型的响应将遵循遇到的最后一个标志。

思维预算。思维模式融合的另一个优势在于,一旦模型学会以非思维和思维模式响应,它就能自然地发展出处理中间情况的能力——基于不完整的思维生成响应。这一能力为实现对模型思维过程的预算控制奠定了基础。具体来说,当模型的思维长度达到用户定义的阈值时,我们手动停止思维过程并插入停止思维的指令:“考虑到用户的时间限制,我必须立即根据当前的思维给出解决方案。\n.\n\n”。插入该指令后,模型将基于其到目前为止积累的推理生成最终响应。值得注意的是,这种能力并不是显式训练出来的,而是思维模式融合自然产生的结果

通用强化学习(General RL)

通用强化学习阶段旨在广泛提升模型在多样化场景中的能力和稳定性。为此,我们建立了一个涵盖超过20种不同任务的复杂奖励系统,每个任务都有定制的评分标准。这些任务特别针对以下核心能力的提升:

  • 指令遵循:该能力确保模型准确解读并遵循用户指令,包括内容、格式、长度和结构化输出等方面的要求,提供符合用户期望的响应。
  • 格式遵循:除了明确的指令外,我们还要求模型遵守特定的格式规范。例如,它应通过切换思考和非思考模式,适当响应/think和/no think标志,并在最终输出中始终使用指定的标记(例如,)来分隔思考和响应部分。
  • 偏好对齐:对于开放性查询,偏好对齐旨在提升模型的帮助性、互动性和风格,最终提供更自然和令人满意的用户体验。
  • 代理能力:这涉及训练模型通过指定接口正确调用工具。在强化学习(RL)的参与过程中,模型被允许与真实环境进行完整的多轮交互,从而改善其在长时决策任务中的性能和稳定性。
  • 特定场景能力:在更特定的场景中,我们设计了符合具体上下文的任务。例如,在增强检索生成(RAG)任务中,我们引入奖励信号,引导模型生成准确且符合上下文的响应,从而最小化幻觉风险。

针对上述任务,我们使用了三种不同的奖励类型:

  • (1) 基于规则的奖励:基于规则的奖励在推理强化学习阶段中被广泛使用,对于指令遵循(Lambert等,2024)和格式遵循等通用任务也非常有用。精心设计的基于规则的奖励可以高精度地评估模型输出的正确性,防止奖励破解等问题。
  • (2) 带有参考答案的模型奖励:在这一方法中,我们为每个查询提供参考答案,并提示Qwen2.5-72B-Instruct根据参考答案对模型的响应进行评分。这种方法可以更灵活地处理多样化的任务,避免仅依赖基于规则的奖励时可能出现的误判。
  • (3) 无参考答案的模型奖励:利用人类偏好数据,我们训练奖励模型为模型响应分配标量评分。这种方法不依赖参考答案,能够处理更广泛的查询,同时有效提升模型的互动性和帮助性。

强到弱蒸馏

强到弱蒸馏管线专门设计用于优化轻量级模型,涵盖5个密集模型(Qwen3-0.6B、1.7B、4B、8B和14B)以及一个专家模型(Qwen3-30B-A3B)。这种方法在提升模型性能的同时,有效赋予了模型强大的模式切换能力。蒸馏过程分为两个主要阶段:

  • (1)离线策略蒸馏:在这一初始阶段,我们将教师模型在/思考和/不思考模式下生成的输出结合起来进行响应蒸馏。这有助于轻量级学生模型发展基本的推理能力和在不同思考模式之间切换的能力,为下一阶段的在线策略训练奠定坚实的基础。
  • (2)在线策略蒸馏:在这一阶段,学生模型生成在线策略序列进行微调。具体而言,采样提示后,学生模型在/思考或/不思考模式下生成响应。通过将学生模型的 logits 与教师模型(Qwen3-32B 或 Qwen3-235B-A22B)的 logits 对齐,以最小化KL散度,对学生模型进行微调。

后训练评估

为了全面评估指令调优模型的质量,我们采用了自动基准测试来评估模型在思考和非思考模式下的性能。这些基准测试被分为几个维度:

  • 一般任务:我们利用的基准测试包括 MMLU-Redux(Gema 等,2024)、GPQA-Diamond(Rein 等,2023)、C-Eval(Huang 等,2023)和 LiveBench(2024-11-25)(White 等,2024)。对于 GPQA-Diamond,我们对每个查询进行 10 次采样并报告平均准确度。
  • 对齐任务:为了评估模型与人类偏好的对齐程度,我们使用了一套专业基准测试。对于指令跟随性能,我们报告 IFEval(Zhou 等,2023)的严格提示准确度。为了评估模型在一般话题上与人类偏好的对齐程度,我们使用 Arena-Hard(Li 等,2024)和 AlignBench v1.1(Liu 等,2023b)。对于写作任务,我们依赖 Creative Writing V3(Paech,2024)和 WritingBench(Wu 等,2025)来评估模型的熟练度和创造力。
  • 数学与文本推理:为了评估数学和逻辑推理能力,我们使用了包括 MATH-500(Lightman 等,2023)、AIME’24 和 AIME’25(AIME,2025)在内的高级数学基准测试,以及 ZebraLogic(Lin 等,2025)和 AutoLogi(Zhu 等,2025)等文本推理任务。对于 AIME 问题,每个年度的题目包括第一部分和第二部分,共 30 道题。每道题我们采样 64 次并取平均准确度作为最终得分。
  • 代理与编码:为了测试模型在编码和基于代理的任务中的熟练度,我们使用 BFCL v3(Yan 等,2024)、LiveCodeBench(v5,2024.10-2025.02)(Jain 等,2024)和 Codeforces Ratings from CodeElo(Quan 等,2025)。对于 BFCL,所有 Qwen3 模型都使用 FC 格式进行评估,并使用 yarn 将模型部署到 64k 的上下文长度以进行多轮评估。一些基线数据来自 BFCL 排行榜,取 FC 和 Prompt 格式之间的较高分数。对于未在排行榜中报告的模型,我们评估了 Prompt 格式。对于 LiveCodeBench,在非思考模式下,我们使用官方推荐的提示;在思考模式下,我们调整了提示模板,移除了限制“除了程序外不返回任何内容”,以使模型更自由地思考。为了评估模型与竞争编程专家之间的性能差距,我们使用 CodeForces 计算 Elo 评分。在我们的基准测试中,每个问题最多生成八次独立的推理尝试。
  • 多语言任务:为了评估多语言能力,我们评估了四种任务:指令跟随、知识、数学和逻辑推理。指令跟随评估使用 Multi-IF(He 等,2024),重点关注 8 种关键语言。知识评估包括两种类型:通过 INCLUDE(Romanou 等,2024)评估的区域知识,涵盖 44 种语言,以及通过 MMMLU(OpenAI,2024)评估的一般知识,涵盖 14 种语言,排除未优化的约鲁巴语;对于这两个基准测试,我们仅采样原始数据的 10% 以提高评估效率。数学任务使用 MT-AIME2024(Son 等,2025),涵盖 55 种语言,以及 PolyMath(Wang 等,2025),涵盖 18 种语言。逻辑推理评估使用 MlogiQA,涵盖 10 种语言,源自 Zhang 等(2024)。

对于所有 Qwen3 模型在思考模式下,我们使用采样温度为 0.6,top-p 值为 0.95,top-k 值为 20。此外,对于 Creative Writing v3 和 WritingBench,我们应用了 1.5 的存在惩罚以鼓励生成更多样化的内容。对于 Qwen3 模型在非思考模式下,我们配置了采样超参数,温度设为 0.7,top-p 设为 0.8,top-k 设为 20,存在惩罚设为 1.5。对于思考和非思考模式,我们设置最大输出长度为 32,768 个 token,但 AIME’24 和 AIME’25 除外,我们将这些任务的最大输出长度延长到 38,912 个 token 以提供足够的思考空间。

从评估结果中,我们总结出最终的Qwen3模型的几个关键结论如下:

  • (1) 我们的旗舰模型Qwen3-235B-A22B在思考模式和非思考模式下,均在开源模型中表现出最先进的整体性能,超越了诸如DeepSeek-R1和DeepSeek-V3等强大基线模型。Qwen3-235B-A22B在与闭源领先模型如OpenAI-o1、Gemini2.5-Pro和GPT-4o的对比中,同样表现出色,展示了其深远的推理能力和全面的综合能力。
  • (2) 我们的旗舰密集模型Qwen3-32B在大多数基准测试中,超越了我们之前的最强推理模型QwQ-32B,并且与闭源的OpenAI-o3mini表现相当,表明其强大的推理能力。Qwen3-32B在非思考模式下也表现出色,超越了我们之前的旗舰非推理密集模型Qwen2.5-72B-Instruct。
  • (3) 我们的轻量级模型,包括Qwen3-30B-A3B、Qwen3-14B以及其他较小的密集模型,在与参数量相近或更大的开源模型对比中,持续表现出优异的性能,证明了我们“强到弱蒸馏”方法的成功。详细结果如下。

对于我们旗舰模型Qwen3-235B-A22B,我们将其与领先的推理和非推理模型进行了比较。在推理模式下,我们将OpenAI-o1(OpenAI,2024)、DeepSeek-R1(Guo等,2025)、Grok-3-Beta(Think)(xAI,2025)和Gemini2.5-Pro(DeepMind,2025)作为推理基线。在非推理模式下,我们将GPT-4o-2024-11-20(OpenAI,2024)、DeepSeek-V3(Liu等,2024a)、Qwen2.5-72B-Instruct(Yang等,2024b)和LLaMA-4-Maverick(Meta-AI,2025)作为非推理基线。评估结果见表11和表12。
img
img

  • (1)从表11可以看出,在仅激活60%和总参数量为35%的情况下,Qwen3-235B-A22B(推理模式)在23个基准测试中的17个上优于DeepSeek-R1,尤其是在需要推理的任务(如数学、代理和编码)上,这表明Qwen3-235B-A22B在开源模型中具备最先进的推理能力。此外,Qwen3-235B-A22B(推理模式)也与封闭源代码的OpenAI-o1、Grok-3-Beta(Think)和Gemini2.5-Pro高度竞争,显著缩小了开源模型与封闭源代码模型在推理能力上的差距。
  • (2)从表12可以看出,Qwen3-235B-A22B(非推理模式)超过了其他领先的开源模型,包括DeepSeek-V3、LLaMA-4-Maverick和我们之前的旗舰模型Qwen2.5-72B-Instruct,并且在23个基准测试中的18个上超越了封闭源代码的GPT-4o-2024-11-20,这表明即使在未通过刻意的推理过程增强的情况下,它也具备内在的强大能力。

对于我们的旗舰密集模型Qwen3-32B,在推理模式下,我们将DeepSeek-R1-Distill-Llama-70B、OpenAIo3-mini(中型)和我们之前最强的推理模型QwQ-32B(Qwen团队,2025)作为基线。在非推理模式下,我们将GPT-4o-mini-2024-07-18、LLaMA-4-Scout和我们之前的旗舰模型Qwen2.5-72B-Instruct作为基线。评估结果见表13和表14。
img
img

  • (1)从表13可以看出,Qwen3-32B(推理模式)在23个基准测试中的17个上优于QwQ-32B,使其成为32B尺寸的新的最先进的推理模型。此外,Qwen3-32B(推理模式)在对齐和多语言性能方面也与封闭源代码的OpenAI-o3-mini(中型)竞争。
  • (2)从表14可以看出,Qwen3-32B(非推理模式)在几乎所有基准测试上都优于所有基线模型。特别是,Qwen3-32B(非推理模式)在一般任务上与Qwen2.5-72B-Instruct表现相当,但在对齐、多语言和推理相关任务上具有显著优势,再次证明了Qwen3相对于我们之前的Qwen2.5系列模型的根本改进。

对于Qwen3-30B-A3B和Qwen3-14B,我们在思考模式下与DeepSeekR1-Distill-Qwen-32B和QwQ-32B进行比较,在非思考模式下与Phi-4(Abdin等人,2024年)、Gemma-3-27B-IT(Team等人,2025年)和Qwen2.5-32B-Instruct进行比较。评估结果见表15和16。
img
img

  • (1)从表15可以看出,Qwen3-30B-A3B和Qwen3-14B(思考模式)在推理相关基准测试上与QwQ-32B具有高度竞争力。值得注意的是,Qwen3-30BA3B在模型规模更小且激活参数少于QwQ-32B的1/10的情况下,仍达到与QwQ-32B相当的性能,这证明了我们提出的“强至弱蒸馏”方法在赋予轻量级模型强大推理能力方面的有效性。
  • (2)从表16可以看出,Qwen3-30B-A3B和Qwen3-14B(非思考模式)在大多数基准测试上超越了非推理基线模型。它们以显著减少的激活参数和总参数数量,超越了我们之前的Qwen2.5-32B-Instruct模型,从而实现了更高效且成本效益更高的性能。

对于Qwen3-8B和Qwen3-4B,我们在思考模式下与DeepSeek-R1-DistillQwen-14B和DeepSeek-R1-Distill-Qwen-32B进行比较,在非思考模式下与LLaMA-3.1-8B-Instruct(Dubey等人,2024年)、Gemma-3-12B-IT(Team等人,2025年)、Qwen2.5-7B-Instruct和Qwen2.5-14B-Instruct进行比较。对于Qwen3-1.7B和Qwen3-0.6B,我们在思考模式下与DeepSeekR1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Llama-8B进行比较,在非思考模式下与Gemma-3-1B-IT、Phi-4-mini、Qwen2.5-1.5B-Instruct和Qwen2.5-3B-Instruct进行比较。

我们分别在表17和18中展示了Qwen3-8B和Qwen3-4B的评估结果,在表19和20中展示了Qwen3-1.7B和Qwen3-0.6B的评估结果。总体而言,这些边缘侧模型表现出色,即使在参数数量较少的情况下,也超过了基线模型,包括我们之前的Qwen2.5模型,无论是在思考模式还是非思考模式下。这些结果再次证明了我们提出的“强至弱蒸馏”方法的有效性,使我们能够在显著降低成本和工作量的情况下构建轻量级的Qwen3模型。
img
img
img
img

讨论

思维预算的有效性

为了验证 Qwen3 是否能够通过增加思维预算来提升其智能水平,我们在数学、编程和 STEM 领域的四个基准测试中调整了分配的思维预算。图2展示了相应的性能提升曲线,表明 Qwen3 的性能提升与分配的思维预算呈正相关且可扩展。此外,我们观察到,如果将输出长度进一步扩展到32K以上,模型的性能有望在未来进一步提升。我们留待未来工作进行深入探索。
img

蒸馏策略的有效性和效率

我们通过比较蒸馏前后与直接强化学习的性能和计算成本(以 GPU 小时为单位)来评估基于策略的蒸馏的有效性和效率,这二者均从同一非策略蒸馏的 8B 检查点开始。为了简化,我们在比较中仅关注数学和代码相关查询。表 21 的结果表明,蒸馏在性能上显著优于强化学习,同时所需 GPU 小时数仅为后者的约 1/10。此外,从教师模型的 logits 进行蒸馏使学生模型能够扩展其探索空间并增强其推理能力,这在 AIME’24 和 AIME’25 基准测试中蒸馏后的 pass@64 分数的提升中得到了证明,相比于初始检查点。相比之下,强化学习并未带来 pass@64 分数的任何提升。这些观察结果突显了利用更强教师模型引导学生模型学习的优势。
img

思维模式融合和通用强化学习

为了评估思维模式融合和通用强化学习(RL)在Qwen-32B模型后训练阶段的效果,我们在不同阶段进行了评估。除了前面提到的数据集,我们还引入了几个内部基准来监测其他能力。这些基准包括:

  • CounterFactQA:包含反事实问题,模型需要识别这些问题不是事实,并避免生成错误的答案。
  • LengthCtrl:包括有长度要求的创造性写作任务;最终得分基于生成内容长度与目标长度之间的差异。
  • ThinkFollow:涉及多轮对话,其中随机插入了/think和/no think标志,以测试模型是否能根据用户查询正确切换思维模式。
  • ToolUse:评估模型在单轮、多轮和多步骤工具调用过程中的稳定性。得分包括意图识别的准确性、调用过程中格式的准确性以及参数的准确性。
    img

结果如表22所示,我们可以得出以下结论:

  • (1) 第3阶段将非思考模式整合到模型中,而该模型在前两个训练阶段后已经具备了思考能力。ThinkFollow基准得分为88.7,表明模型已初步具备模式切换的能力,尽管偶尔仍会出错。第3阶段还增强了模型在思考模式下的通用性和指令遵循能力,CounterFactQA提高了10.9分,LengthCtrl提高了8.0分。
  • (2) 第4阶段进一步加强了模型在思考和非思考模式下的通用性、指令遵循能力和代理能力。值得注意的是,ThinkFollow得分提高到98.9,确保了准确的模式切换。
  • (3) 对于知识、STEM、数学和编程任务,思考模式融合和通用强化学习并未带来显著改进。相反,对于如AIME’24和LiveCodeBench等高难度任务,经过这两个训练阶段后,模型在思考模式下的表现实际上有所下降。我们推测这种退化是由于模型在更广泛的通用任务上进行了训练,这可能会削弱其处理复杂问题的专项能力。在Qwen3的开发过程中,我们选择接受这一性能权衡,以增强模型的总体 versatility。

结论

在本技术报告中,我们介绍了Qwen3,Qwen系列的最新版本。Qwen3的特点是具备思考模式和非思考模式,使用户能够动态管理用于复杂思考任务的token数量。该模型在一个包含36万亿token的广泛数据集上进行了预训练,能够理解和生成119种语言和方言的文本。通过一系列全面的评估,Qwen3在预训练和微调模型的标准基准测试中表现出色,涵盖代码生成、数学、推理和智能体等任务。

在不久的将来,我们的研究将集中在几个关键领域。我们将继续扩大预训练的规模,使用质量更高、内容更多样化的数据。同时,我们将致力于改进模型架构和训练方法,以实现有效的压缩、扩展到极长的上下文等目标。此外,我们计划增加计算资源,特别是在基于智能体的强化学习系统方面,这些系统能够从环境反馈中学习。这将使我们能够构建能够应对需要推理时间扩展的复杂任务的智能体。

posted @ 2025-05-15 10:05  一介布衣、  阅读(1404)  评论(0)    收藏  举报