Qwen3技术文档解读
本文解读了Qwen3技术报告中一些内容,本人水平受限,解读不到位和有误之处欢迎大家批评指正。
模型结构
这里我贴出原文,不懂下面知识的同学可以去学习一下,都是很简单的内容,重要的是使用它们的好处。
Grouped Query Attention (GQA, Ainslie et al., 2023), SwiGLU (Dauphin et al., 2017), Rotary Positional Embeddings (RoPE, Su et al., 2024), and RMSNorm (Jiang et al., 2023) with pre-normalization
此外取消了QKV-bias,而引入了QK-Norm,将QK点积的维度现在在dim附近。并且Qwen3-MOE模型没有共享专家。
预训练
数据
为了扩充语料库,保障预训练数据的多样性,研究团队用了Qwen2.5-VL对PDF文档进行了OCR识别,然后用Qwen2.5优化文本质量。此外,还利用Qwen2.5家族的其他模型进行了数学、编码等任务的数据合成。
预训练过程
- 在30万亿token上进行通用能力训练
- 在更高质量数据,如编码、科学等领域上的继续训练,同时加速了学习率的衰减。(减小学习率可以减少对训练数据的过度拟合,提高模型的泛化能力,更精细地调整权重)
- 以上两个阶段上下文长度为4K,第三阶段调整上下文长度。长上下文语料库包括75%长度在16384到32768个token之间的文本,以及25%长度在4096到16384个token之间的文本。这么做可以模拟真实世界的数据,提高模型在多任务中的灵活性。
预训练指标
比例巴拉一些在测试数据集上的结果,有过科研经历的同学应该懂,这玩意得仁者见仁智者见智。
多阶段后训练对齐人类偏好和使用下游任务
旗舰模型Qwen3-235B-A22B和Qwen3-32B的后训练过程:
阶段一 思维链冷启动
## 问题:...
## 思考过程:...
## 答案:...
数据集构建过程中经历了两阶段的过滤。查询过滤和回答过滤。查询过滤直接过滤了难以验证的问题、而回答过滤应用更严格的过滤标准来移除以下类型的响应:
1.产生不正确的最终答案。2. 包含大量重复内容。3. 明显表明猜测而没有足够的推理。4. 思考和总结内容之间存在不一致。5. 涉及不适当的语言混合或风格变化。6. 被怀疑与潜在的验证集项过于相似。
通过COT让模型学会该如何思考,接着对齐偏好
阶段二 推理强化学习
1.提示词中添加模型输出的格式,如思考过程<think>和最终结果<answer>
2.模型根据策略π生成对应问题的答案和思考过程
3.将生成答案和正确答案进行精准度匹配
4.通过强化学习的方法,如计算GAE对策略进行优化
阶段三 整合数据集进行强化学习以适应思考模式和非思考模式不同的任务需求(SFT数据)
阶段四 通用强化学习
用户token预算使思考内容超过预算使模型加入/think标签,根据已有思考内容生成最终结果。此处在超过预算模型思考停止然后生成结果,后训练样本里就有这些数据。(官方说这种能力不是明确训练出来的,而是因为思考模式融合的产物,可是数据里有这些样本,模型不也会学习到思考过程不完整时,该怎么生成回复嘛,此处有疑问)
小模型的后训练:
大模型进行知识蒸馏让优化小模型性能
“初步实验表明,直接从教师模型中提取输出logits到轻量级学生模型中可以有效地提高他们的性能,同时保持对推理过程的细粒度控制。这种方法消除了为每个小规模模型单独执行详尽的四阶段训练过程的必要性。”
两阶段蒸馏:1. 离线策略,让学生模型根据老师模型的回答进行子监督的学习,让学习能从文盲变为能背课文的孩童。 2. 在线策略,学习实战根据prompt生成思考和非思考的答案让老师评分,优化两者间token级和概率分布级的差异。

浙公网安备 33010602011771号