LLM · 技术报告速读 | Stepfun 系列
技术报告列表
- Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters,https://arxiv.org/abs/2602.10604v2
- Step-DeepResearch Technical Report,https://arxiv.org/abs/2512.20491v4
个人收获总结:
Step-DeepResearch:
- 感觉这些内容似乎比较通常,也就是要训练 agentic 的原子能力、循序渐进地训练(或者叫做课程学习)、先 SFT 或 mid-training 让 agent 学会调 tool 再 RL。
- (stepfun 的人提到,RL 可能不涨点,但是会增强 agent 的鲁棒性
Step 3.5 Flash
还没读。
Step-DeepResearch
这是一个 32B 的小模型。
stepfun 认为,应该将复杂的深度研究任务,拆解为 4 个可训练的原子能力,并据此针对性地合成训练数据:
| 原子能力 | 数据合成方法 | 关键技术 |
|---|---|---|
| 规划 & 任务分解 | 逆向工程:从高质量报告反推任务查询 | 轨迹一致性过滤、后验约束 |
| 深度搜索 & 信息获取 | 知识图谱子图采样 + 多文档拓扑游走 | 难度过滤(QwQ-32B筛除简单任务) |
| 反思 & 交叉验证 | 错误反思闭环 + 多智能体验证工作流 | 自动纠错、多源事实核查 |
| 报告生成 | 两阶段:Mid-training 学领域风格 + SFT 学格式规范 | 引用格式对齐、计划结构跟随 |
基于这四种能力,论文设计了合成数据的 Pipeline。它会输入一个领域主题和一份原始材料(如多份网页内容),让一个更强大的“教师模型”按以下顺序生成训练样本,覆盖了从微观到宏观的所有环节:
- 微观层面:
- 领域知识问答:针对材料提问,生成单跳或多跳问答对,训练模型的信息抽取和初步推理能力。
- 多文档摘要:要求模型总结多份材料的内容,训练信息整合能力。
- 中层决策层面:
- 高层规划合成:给定一个研究主题,生成详细的搜索计划,训练分解问题的能力。
- 行为反思合成:给定当前已收集的信息,判断信息是否足够、缺失了什么、下一步该如何搜索,训练自我评估能力。
- 宏观整合层面:
- 跨来源验证合成:对多份材料中的信息进行交叉验证,找出矛盾或相互佐证之处,训练批判性思维。
- 最终报告合成:基于所有材料,生成带引用的长篇研究报告,训练最终输出能力。
agentic 架构:采用精简 ReAct 单智能体架构,核心设计:
用户查询 → [规划 & 反思] ↔ [工具执行] ↔ [反馈 & 交叉验证] → 研究报告
训练流程:渐进式、三阶段:(发现这个 mid-training 跟 mirothinker 非常像)
预训练基座 (Qwen2.5-32B)
↓
📌 Stage 1: Agentic Mid-training
• 32K 上下文:注入原子能力,纯文本推理
• 128K 上下文:引入工具调用,真实任务场景
↓
📌 Stage 2: Supervised Fine-tuning (SFT)
• 端到端轨迹组合原子能力
• 数据清洗策略:最短正确轨迹、噪声注入、N-gram 去重、引用对齐
↓
📌 Stage 3: Reinforcement Learning (RL)
• 两步骤逆向合成:任务 + Rubrics 联合生成
• Checklist 式 Judger 奖励设计:二元映射消除中间态噪声
• PPO 算法 + GAE 优势估计,真实工具环境交互
提出 ADR-Bench 基准:
- 为了在中文环境下进行可靠评估,团队构建了一个覆盖 12 个领域、包含多样化问题类型的基准。其亮点在于采用了真人专家超过 500 小时的精细标注,从事实准确性、逻辑严谨性、信息完整性等多个维度进行打分,解决了学术基准与真实需求脱节的问题。

浙公网安备 33010602011771号