LLM · 技术报告速读 | Qwen 系列

技术报告列表

Qwen3-Coder-Next Technical Report (2026 年 2 月)，https://arxiv.org/abs/2603.00729
- 专为 Coding Agent 打造的 80B 参数开源模型，重点优化了 Agent 交互中的指令跟随与长程代码上下文理解，是学习 Agent 专属基座模型微调的优质材料。
- 开源、专为编程智能体设计的模型，总参数 800 亿，推理时仅激活 30 亿参数，实现高效推理。训练上结合了大规模可执行任务合成、环境交互与强化学习，在 SWE-Bench 等 Agentic Coding 基准上表现出色。
Qwen3 Technical Report，20250514，https://arxiv.org/abs/2505.09388
Qwen3.6：
- GitHub：https://github.com/QwenLM/Qwen3.6
- blog：Qwen3.6-Plus: Towards Real World Agents，https://qwen.ai/blog?id=qwen3.6 （这个展示了 qwen3.6 的效果，没有说具体的技术）
Qwen3.7：
- 好像是 blog：https://qwen3lm.com/qwen3.7/ （这个展示了 qwen3.7 的部分效果，没有说具体技术）
- long-horizon task，agent 独立运行 xx 小时，curve 一直在涨的那个图，是 glm-5.1 的，不是 qwen 3.7。

架构：MoE 80B / 3B。

加了 mid-training，objective 应该跟预训练是一眼的，但是吃进去一些 repo 数据。

然后做了 SFT。

在 SFT 后，用 RL 训了多个专家模型：

然后把这些 expert 蒸馏到一个统一的 after SFT 的 base model 里，没有说是具体怎么蒸馏的。

infra：团队构建了名为 MegaFlow 的内部编排系统，基于阿里云 Kubernetes 实现全云原生执行框架，工作流分为 Agent rollout、评估和后处理三个阶段，支持生产级规模的训练、评估和数据生成。

用各种 tool call 模板（xml json 等）来训。

还可以合成可控的解决 bug 的任务，似乎是引入一些 bug，然后 agent 来解决。

防 Reward Hacking：标准防护（移除 git remote/branch）不足以阻止模型后期恢复远程仓库窃取答案。团队引入启发式阻断规则：任何同时包含仓库链接和网络访问关键词（git/curl/wget）的工具调用都会被拦截。

还没读。

posted @ 2026-05-27 14:26 MoonOut 阅读(227) 评论(0) 收藏举报

刷新页面返回顶部