LLM · 技术报告速读 | GLM 系列

技术报告列表

GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models，https://arxiv.org/abs/2508.06471 ，2025 年 8 月。
GLM-5: from Vibe Coding to Agentic Engineering，https://arxiv.org/abs/2602.15763 ，2026 年 2 月。
GLM-5.1: Towards Long-Horizon Tasks，https://z.ai/blog/glm-5.1 ，2026-04-07。非常关注 long-horizon 任务。
Scaling Pain of Coding Agent Serving: Lessons from Debugging GLM-5 at Scale，https://z.ai/blog/scaling-pain ，2026-04-30。
- 首次系统披露在超大规模 Coding Agent 调用场景下的底层推理优化方法，使系统吞吐量最高提升 132%，为 Agent 的规模化部署提供了关键工程支撑。
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents，https://arxiv.org/abs/2604.26752 ，2026-05-10。
- 探索原生多模态 Agent 基座，使模型能“看懂”图像、网页、GUI 等视觉信息，并以此执行操作，同时保留了强大的文本编程能力，拓展了 Coding Agent 的交互边界。

个人收获总结：

TBC。

技术报告列表
GLM-4.5
GLM-5
- 1 架构
- 2 训练流程
Scaling Pain for debugging GLM-5

GLM-4.5

（以下内容基本就是 ai 速读）

一、模型架构：深度优先的 MoE 设计

GLM-4.5 系列包含两个规模，其架构围绕“深度优先 + 混合专家（MoE）”理念构建，认为增加深度比宽度更有利于推理能力。

相比 DeepSeek-V3/Kimi K2，减少隐藏维度与专家数，大幅增加层数。实验证明更深模型推理能力更强。

模型	总参数量	激活参数量	层数	专家数/层	激活专家数	注意力头数	KV 头数	隐藏维度	上下文长度
GLM-4.5	355B	32B	64	160 (Top-8 + 1 共享)	8+1	96	8	5120	128K
GLM-4.5-Air	106B	12B	48	128 (Top-8 + 1)	8+1	64	8	3584	128K

1.1 混合专家（MoE）

细粒度专家：每个 MoE 层有大量小专家（160 或 128个），每个 token 通过 sigmoid 门控机制路由到 Top-8 个专家，外加 1 个始终激活的共享专家，以捕获通用知识。
负载均衡：采用辅助损失保证专家利用率均衡，避免路由塌缩。

1.2 注意力机制：多头 GQA + QK-Norm

分组查询注意力（GQA）：用 8 个 KV 头匹配 96 个查询头，大幅减少 KV 缓存，提升推理效率。
QK-Norm：对 Query 和 Key 施加 LayerNorm。论文发现这能稳定训练并显著提升推理任务表现，尤其在极深网络和多头下防止注意力对数失控。
部分 RoPE：只在部分维度应用旋转位置编码（前 50% 维度），既保留位置信息又减少对注意力的过度约束。

1.3 多 token 预测（MTP）

模型除了预测下一个 token，还用额外的 MTP 模块预测后续的多个 token（深度 2，即预测下一个和下下个 token）。

结构：MTP 模块为独立的 MoE 层（与主模型共享专家池但独立路由），以当前隐藏状态为输入，输出后续 token 的概率。
目的：提升训练效率、强化表征学习；推理时可用于投机解码（Speculative Decoding）加速。

1.4 其他组件

激活函数：SiLU。归一化：RMSNorm。优化器：预训练阶段使用 Muon 优化器（带动量的矩阵归一化更新），可加速收敛并允许更大学习率。

二、训练全流程：三阶段递进策略

训练数据与方式是实现 ARC 能力的关键。整个流程分为预训练、中期训练、后训练（对齐与 Agent 强化）。

2.1 预训练：夯实基础

数据构成

总量：23T tokens（1T = 1e12，1B / 1G = 1e9，1M = 1e6）。
- 15T 来自互联网通用语料（网页、书籍、对话等）。
- 8T 高质量垂直数据：代码（GitHub 仓库、开源项目）、数学/科学论文、推理数据集等。
数据处理 pipeline：
- 质量上采样：用 fastText 等分类器给文档质量打分，在采样时增加高质量数据的权重，相当于“从噪音中多挑优质内容训练”。
- SemDeDup 语义去重：在预训练模型的 embedding space 中，移除语义高度重复（K-Means 聚类到同一个簇，并且余弦相似度超过阈值）的文档，比传统精确去重，更能保留多样性并剔除冗余。“解决模板生成网页的 MinHash 漏删问题”
- 多级过滤：基于规则（长度、重复度、敏感词）和模型评分（教育价值、毒性等）逐级清洗。
- 数据混合：为不同训练阶段动态调整领域配比，早期：更多通用文本，后期：增加代码和推理数据。

训练目标

对文本使用标准自回归语言建模。
对代码数据使用 Fill-In-the-Middle (FIM)：随机屏蔽代码段（前缀-中间-后缀格式），让模型补全中间部分，以训练代码补全和理解能力。（看起来像很古早的 nlp 训练的 mask 目标）
超参：Muon 优化器（Newton-Schulz 步数 N=5, μ=0.95），余弦学习率衰减（非 WSD，WSD 在稳定期易欠拟合），Batch Size 从 16M 逐步 Warmup 至 64M Tokens。

2.2 中期训练：专项能力注入

在预训练基座模型上进行，目的是以低成本高效扩展特定能力。

(1) 长上下文扩展

将上下文窗口从 4K 分阶段扩展到 128K。
方法：逐步增大 RoPE 的旋转基频，并辅以长文本数据（书籍、长文档、长代码）持续训练。每一阶段验证长上下文困惑度直到收敛。
最终模型在 128K 下的语言建模困惑度与短上下文持平，表明真正利用了长上下文。

困惑度：困惑度 (PPL) 是衡量语言模型预测能力的指标，用于量化模型在预测文本时的不确定程度。PPL 越低，模型越准确。

\[\text{PPL} = \exp( - \frac 1N \sum\log P(w_i | \text{context}) ) \]
直观理解：PPL 可以看作模型在做每个词的“选择题”时，感觉在多少个“有效选项”中犹豫不决。PPL 为 100，就意味着它每步都像从 100 个词中做选择。

(2) 代码仓库级理解

构建“仓库级”数据：将同一软件仓库中的多个文件（如 Python 项目）按依赖关系拼接成一个长序列，并插入特殊标记区分文件边界。拼接内容还可能包括 GitHub 的 PR、Issue 和 Commit（常以 diff 形式呈现），构成一个完整的开发上下文。
训练目标：本质仍是预训练，即预测下一个 token。通过展示跨文件上下文，迫使模型理解“跨文件的符号引用”或“修改某文件对其他文件的影响”。

(3) 合成推理数据

用早期高能力模型生成大规模“思考过程+答案”的链式推理（CoT）数据，涵盖数学、科学、逻辑谜题等领域。
将这些合成数据混入训练，让模型初步内化“一步一步思考”的格式和推理模式。

2.3 后训练：对齐与 Agent 能力锻造

此阶段通过迭代的监督微调（SFT）、蒸馏和强化学习（RL），将模型打磨为具备强大 Agent、推理、通用对话能力的最终模型。

2.3.1 专家模型迭代与自蒸馏

不直接训练统一模型，而是先分别训练三个专家模型：

推理专家：专注数学、科学、代码的深层推理。
Agent 专家：精通工具调用、多步交互、环境反馈。
通用对话专家：擅长指令跟随、安全、长文本生成。

训练过程中，用当前最强专家模型生成高质量样本，再去微调另一个专家（交叉蒸馏）。最终通过 自蒸馏 将三个专家的能力融合到一个模型，避免能力冲突。

自蒸馏：分别用专家模型对海量指令生成高质量回复；将这三个专家模型生成的数据混合（Concat）起来，构成一个新的数据集；用这份混合数据集，对同一个基础模型进行多任务SFT。

交叉蒸馏：例如用推理专家的数据微调 Agent 专家。

具体流程：

迭代自蒸馏 (Iterative Distillation)：RL训练至 plateau → 用 RL 模型生成高质量轨迹替换原始 SFT 数据 → 重新 RL。循环推高能力天花板。
RL 的结果监督 + 过程格式惩罚：以最终答案正确性为奖励；若模型生成错误工具调用格式，立即终止轨迹并给 0 奖励，强制格式鲁棒性。

2.3.2 强化学习基础框架：slime

基于开源 RL 框架 slime（由智谱自研），支持：

PPO 和 GRPO 等策略优化算法。
灵活的奖励建模：可结合规则、代码执行反馈、API 返回值、检索验证、人类偏好（RLHF）和模型评判（RLAIF）。

2.3.3 推理能力的强化学习

课程学习策略：根据问题难度（如 MATH 等级）逐步提高训练题目难度，避免直接高难度导致训练不稳定。
超长上下文 RL：在 64K 上下文窗口下进行 RL 训练，让模型能处理需要长推理链和大量上下文信息的难题。
奖励：最终答案的正确性（通过规则匹配或单元测试验证），格式符合度（是否遵循思考格式）等。

2.3.4 Agent 能力的强化学习

Agent 能力是本次突破的关键，训练过程精心设计了环境、任务和 RL 循环。

任务设计

工具种类：网页搜索、代码解释器、API 调用、数据库查询、文件系统操作等。
场景：多轮对话查询（BFCL 风格）、多步信息整合（如“查 A 公司股价，计算增长百分比，并生成图表”）、开放域任务（如旅行规划）。
评估环境：使用真实沙箱环境执行代码，调用真实搜索 API，接收环境反馈（如程序运行错误、API 返回结果）。RL 训练时这些反馈直接作为奖励信号的一部分。

BFCL 风格：BFCL风格指的是伯克利函数调用排行榜所定义的一套针对大模型函数调用能力的标准评估范式。

其风格特点是考核场景非常细致和实用，远超简单函数调用，主要包括：

并行函数调用：一次生成多个相互独立的函数调用。

多重函数选择：从大量备选函数中选出最合适的。

多轮交互：基于对话历史持续调用工具，考验上下文记忆。

多步推理调用：前一个工具的返回结果作为后一个的输入参数，串联使用。

相关性检测：判断是否有必要调用工具，避免不必要的操作。

训练流程

SFT 冷启动：用人类专家标注的 Agent 交互轨迹进行 SFT，让模型学会基本 tool call 格式和简单任务解决模式。
在线 RL 探索：模型在环境里实际执行任务，根据执行结果给予奖励：1 执行成功奖励：代码运行无错并产生正确输出、API 调用序列正确并得到最终答案。2 过程格式奖励：是否按指定 JSON 格式调用工具。3 效率惩罚：避免无限循环调用。
迭代自蒸馏：从 RL 训练的 Agent 模型采样高质量成功轨迹，再蒸馏回模型进行 SFT，如此循环多次，不断扩展能力边界。
- 混合推理模式：刻意平衡“完整CoT推理”与“无显式思考”数据，使模型能根据任务复杂度，自动切换深度思考或即时响应。
- SFT 数据：使用 XML 函数调用模板：传统 JSON 需大量转义代码字符，增加学习负担。GLM-4.5 采用 <tool_call>/<arg_key>/<arg_value> 等 XML 标签封装，大幅降低转义负担且不损失性能。
- 拒绝采样 (Rejection Sampling)：去重 / 去截断 → 客观题正确性验证 → 主观题 Reward Model 过滤 → 工具调用格式与终态验证。
- Prompt 筛选与响应缩放：剔除响应长度后 50% 的简单 Prompt，仅用一半数据即提升 2-4%；对困难 Prompt 进行 4 路采样缩放，再提升 1-2%。
多 Agent 交互训练：部分任务涉及模型扮演多个 Agent 角色协同解决，提升协调和规划能力。

关键技术支持

长上下文维护：Agent 交互可能产生极长历史（多次工具调用结果），训练中上下文保持 64K~128K。
鲁棒性：通过注入噪声（如工具返回超时、错误信息）训练模型应对真实世界的不确定性。

三、关键结果与设计验证

3.1 为什么选择这些 Benchmark

论文围绕 ARC（Agentic, Reasoning, Coding） 三大能力，选取了最权威、最能区分顶尖模型的任务集：

Agent：TAU-Bench（评估多领域多步任务自动化成功率）、BFCL-v3（伯克利函数调用基准，衡量工具调用的准确性和鲁棒性）、SWE-bench Verified（真实 GitHub 问题修复合集，综合考察代码仓库理解、定位和补丁生成）。
推理：AIME 2024（美国数学邀请赛，极难数学推理）、MATH-500（多样化高难度数学题）、GPQA（研究生水平科学推理）。
编程：LiveCodeBench（实时代码生成与执行）、HumanEval+、MBPP+（代码补全与测试用例通过率）。

这些基准共同的特点是高度贴近现实，作弊空间小，难度顶级，能真实反映模型的前沿水平。

3.2 核心结果一览

GLM-4.5 在 12 项主流基准上综合排名全球第三（开源第一），关键数字：

能力维度	基准	GLM-4.5 得分	对比标杆
Agent	TAU-Bench	70.1%	全球第二，超过 GPT-4.1 等
Agent	BFCL-v3	90.6% (成功率)	与 Claude 4 Sonnet 持平
Agent	SWE-bench Verified	64.2%	解决 64.2% 的真实软件缺陷
推理	AIME 2024	91.0%	极具竞争力，接近顶尖闭源模型
推理	MATH-500	97.8%	几乎满分
编程	LiveCodeBench	62.3%	实时生成通过率

表格中数据说明：这些是论文报道的主要结果，展示了 ARC 能力的深度融合——单一模型同时在这三类任务中达到一流水平。

3.3 关键设计验证（消融与分析）

论文通过大量实验验证了架构和训练策略的有效性：

① 架构选择

深度优先 vs. 宽度：在控制总参数量相同的情况下，在推理任务上，更深的网络（更多层，较窄隐藏维度）显著优于浅而宽的网络，验证了“深度增强推理”的假设。
MoE 的收益：与同等计算预算的密集模型对比，MoE 模型在下游任务上提升显著，且推理速度更快（因激活参数少）。
QK-Norm 的作用：消融实验显示，移除 QK-Norm 后训练变得不稳定，且数学推理得分下降明显，证明它在稳定深层多头注意力中的关键性。
MTP 模块：添加 MTP 后，训练效率（每 GPU 小时的下游性能）提升约 5~10%，且略微提高了代码生成任务的得分。

② 数据与训练策略

质量上采样：相较于均匀采样，质量上采样使最终模型在多个知识密集型任务上提升 2~3 个百分点。
SemDeDup 去重：仅靠 MinHash 精确去重，会损失模型泛化能力，结合语义去重后，困惑度和下游任务均有改善。
FIM 训练：对代码补全（HumanEval+）提升超过 10 个百分点，验证了它在代码能力上的必要性。

③ mid-training 验证

长上下文扩展：绘制了不同上下文位置的 PPL 曲线，证明 128K 窗口内 PPL 保持平稳，没有外推失效。
仓库级训练：SWE-bench 分数在加入仓库级数据后提升显著（+12%），且模型跨文件引用准确率大幅上升。

④ 后训练与 Agent RL 验证

推理 RL 课程学习：有课程学习，比直接高难度 RL 训练的最终 AIME 得分高 4 个百分点，且训练过程更平稳。
Agent RL 的作用：SFT 只能将 BFCL 成功率推到约 85%，加入在线 RL 后提升至 90.6%；在 TAU-Bench 上 RL 贡献了超过 15 个百分点的绝对提升。
迭代自蒸馏：只做一轮 RL 效果有限，经过 3 轮“RL → 蒸馏 → SFT”循环后，Agent 成功率持续上升并收敛，验证了这种方法能稳定将环境交互经验内化到模型中。（有趣的）
安全对齐：多目标 RL 后，有害响应率降低至 <2%，同时在有用性上未明显下降，展示了 RLHF / RLAIF 的有效融合。

GLM-5

1 架构

DSA（DeepSeek Sparse Attention）

最开始训不是稀疏的，而是一种相对 dense 的 attention，然后才开始用稀疏的训。

DSA 的核心理念是：在计算当前 token 的注意力时，不再关注历史上所有 token，而是通过一个动态路由机制（Routing Mechanism），只挑选出与之最相关的 Top-K 个 token 进行计算。这种“按需分配”的策略，使模型在不折损长上下文理解和推理深度的前提下，大幅降低了训练与推理成本。

不过，直接训练一个基于 DSA 的超大模型，风险极高，容易因稀疏化导致梯度爆炸或模型崩塌。GLM-5 团队采用了一种精巧的两阶段继续预训练策略：

稠密预热（Dense Warm-up）：在预训练初期，模型先使用相对稠密的注意力机制（类似 MLA 的变体），让模型充分建立全局、稳固的语义表征能力。
平滑过渡与稀疏训练（Sparse Training）：待模型打好基础后，逐步提高稀疏度，实现向高效稀疏注意力的平滑过渡。

这一架构优化带来了显著的规模红利：GLM-5 的总参数从 GLM-4.5 的 355B 扩展至 744B（激活参数从 32B 增至 40B），预训练数据从 23T token 提升至 28.5T token。

异步 RL

似乎是基于 slime 库，让 rollout 和 RL 训练变成了一个不再相互等待的过程。改了 infra 和 RL 算法，允许推理节点使用稍旧版本的模型生成数据，（可能通过重要性采样修正）。

看来 agentic rollout 时间长，确实是大家都在关注的问题。

使用了 Muon Split 优化器。

2 训练流程

预训练

基于包含 27T+ token 的庞大语料库展开，并在早期阶段优先训练代码和推理能力。

mid-training

context 长度的渐进式扩展：GLM-5 采用分阶段连续训练策略，将上下文窗口从 4K 逐步扩展至 200K，而非一次性插值。

以及，mid-training 阶段的数据不再只是通用语料，而是精心设计了“智能体专项数据”，主要包括：

长链工具调用轨迹：模型在模拟环境中执行多步操作（如文件浏览、代码搜索、测试运行）产生的完整交互记录，让模型提前习得“观察-思考-行动”的模式。
代码库级理解数据：完整的软件仓库结构、跨文件引用关系、commit 历史和 issue 修复记录，训练模型从全局视角理解工程。
长文档与对话：技术文档、多轮对话，用于稳固基础语言能力。

训完这些数据后，模型在进入 RL 阶段前，就已具备处理千步级交互所需的基础注意力与上下文管理能力。

后训练

混合奖励体系：

最终正确性奖励：代码通过所有隐藏测试得正向奖励，否则无奖励或轻微负向。
过程合理性奖励：利用一个训练好的过程奖励模型（PRM）或基于规则的启发式方法，对中间步骤的合理性进行评估。例如：
- 是否尝试运行相关测试来复现 bug？
- 是否在修改代码前先定位了关键文件？
- 是否产出了语法正确的命令？
自我纠错奖励：当模型遭遇错误（命令失败、测试失败）后，能够根据错误信息修正自己的行为，若修正步骤符合逻辑，会获得微小正向激励，以此强化模型的“从错误中学习”的能力。

这些辅助奖励信号，显著缓解了稀疏奖励下的学习困难。

动作空间与思考机制的优化：为了让模型在开放工程环境中更有效地探索，GLM-5 设计了结构化的动作空间：

Thinking Token：在输出工具调用前，模型可以生成任意长度的思维链，用于分析当前状态、制定计划。这部分不直接影响环境，但会被纳入轨迹用于策略学习。Agent RL 过程中，这些思维链的内容质量会通过最终成功率得到自然选择。
工具调用：符合标准函数调用格式，环境严格解析执行。无效调用会立即得到错误反馈，形成天然的负向学习信号。
“尝试-恢复”模式：算法会特别奖励，在收到错误后主动分析原因并尝试修复的行为模式，而非简单放弃，这使得模型的自我纠错能力在 RL 循环中不断增强。

探索策略与 curriculum learning：在 Agent RL 的早期，任务成功率极低，探索空间巨大。GLM-5 设计了从简单到复杂的 curriculum learning：

初期使用人工构造的短程、单文件修复任务。
逐步过渡到多文件、需理解复杂依赖关系的真实 SWE-bench 风格任务。
同时使用 Entropy Bonus 鼓励策略保持多样性，防止过早收敛到次优方案。

具体的 RL 做法：

三阶段顺序 RL：后训练被严格分成三个阶段，顺序执行：

1 推理 RL（Reasoning RL）

使用数学（AIME、MATH）、编程（Codeforces）等短周期、即时反馈的任务进行强化学习。
目标：最大化模型的深度思考与精准推理能力，使其能生成长而严谨的思维链。
此阶段产出的策略，已是一个强推理模型，但尚未接触长程交互任务。

2 智能体 RL（Agent RL）

在前一阶段推理能力的基础上，使用前述的异步 Agent RL 算法在软件工程环境（SWE-bench、内部构建的 CC-Bench-V2 等）中训练。
关键：模型已有的强推理能力成为探索复杂任务的基础——它能更好地分析错误、规划步骤，从而显著提高 Agent RL 的样本效率。
本阶段输出的是真正具备自主工程能力的“Agentic Engineer”。

3 通用 RL（General RL）

使用通用对话、指令遵循、安全性等数据集进行最后的对齐。
目标：确保模型在获得专业智能体能力后，仍能友好、安全地与用户对话，遵循复杂指令。

在线策略跨阶段蒸馏：

这是防止灾难性遗忘的核心技术。当训练从阶段 1 转入阶段 2（推理→智能体）时，若直接在新环境上微调，推理能力会因分布偏移而迅速退化。GLM-5 的做法是：

在线生成“锚”数据：在阶段二的每一次参数更新间隙，使用当前训练中的模型，在阶段一的推理任务上生成一批新的响应（在线策略）。
蒸馏混合训练：将这批新生成的推理数据与智能体 RL 的轨迹数据混合成一个 batch。损失函数中，在推理数据部分加入 KL 散度正则项，约束当前策略不要与纯推理阶段的策略偏离过远；或者直接使用蒸馏损失，让当前模型的推理输出概率尽量接近冻结的“推理教师”模型（可能是阶段一结束时的快照）。
从阶段二到阶段三也同样操作，用智能体任务数据作为锚点，保持 Agent 能力不退化。

“在线策略”的妙处在于：蒸馏所用的数据永远来自模型自己当前的分布，避免了离线数据与当前策略不匹配导致的偏差，使能力保留更为稳固。

Agent-as-a-Judge：前端评估中 GUI 智能体模拟用户交互的自动化方案（这个是什么

最后，在国产适配方面的总结。

Scaling Pain for debugging GLM-5

貌似是 infra 相关，暂时不看。

posted @ 2026-05-27 14:26 MoonOut 阅读(46) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙