LLM · 技术报告速读 | Qwen 系列


技术报告列表

  • Qwen3-Coder-Next Technical Report (2026 年 2 月),https://arxiv.org/abs/2603.00729
    • 专为 Coding Agent 打造的 80B 参数开源模型,重点优化了 Agent 交互中的指令跟随与长程代码上下文理解,是学习 Agent 专属基座模型微调的优质材料。
    • 开源、专为编程智能体设计的模型,总参数 800 亿,推理时仅激活 30 亿参数,实现高效推理。训练上结合了大规模可执行任务合成、环境交互与强化学习,在 SWE-Bench 等 Agentic Coding 基准上表现出色。
  • Qwen3 Technical Report,20250514,https://arxiv.org/abs/2505.09388
  • Qwen3.6:
  • Qwen3.7:


Qwen3-Coder-Next

架构:MoE 80B / 3B。

加了 mid-training,objective 应该跟预训练是一眼的,但是吃进去一些 repo 数据。

然后做了 SFT。

在 SFT 后,用 RL 训了多个专家模型:

  • Web Development Expert:以视觉正确性和功能正确性为核心,使用 Playwright + VLM 进行静态视觉评估与动态交互评估。
  • UX Expert:针对 CLI / IDE 场景进行优化,在多套工具模板上训练以实现跨框架工具调用格式的稳定泛化。
  • 单轮 RL Expert:利用代码可执行验证的特点,在更广泛的编程任务上做执行反馈驱动的强化学习。
  • SWE Expert:专注仓库级代码修复与编辑。

然后把这些 expert 蒸馏到一个统一的 after SFT 的 base model 里,没有说是具体怎么蒸馏的。

infra:团队构建了名为 MegaFlow 的内部编排系统,基于阿里云 Kubernetes 实现全云原生执行框架,工作流分为 Agent rollout、评估和后处理三个阶段,支持生产级规模的训练、评估和数据生成。

用各种 tool call 模板(xml json 等)来训。

还可以合成 可控的解决 bug 的任务,似乎是引入一些 bug,然后 agent 来解决。

防 Reward Hacking:标准防护(移除 git remote/branch)不足以阻止模型后期恢复远程仓库窃取答案。团队引入启发式阻断规则:任何同时包含仓库链接和网络访问关键词(git/curl/wget)的工具调用都会被拦截。

Qwen3

123



posted @ 2026-05-27 14:26  MoonOut  阅读(80)  评论(0)    收藏  举报