LLM · 技术报告速读 | Stepfun 系列

技术报告列表

Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters，https://arxiv.org/abs/2602.10604v2
Step-DeepResearch Technical Report，https://arxiv.org/abs/2512.20491v4

个人收获总结：

Step-DeepResearch：

感觉这些内容似乎比较通常，也就是要训练 agentic 的原子能力、循序渐进地训练（或者叫做课程学习）、先 SFT 或 mid-training 让 agent 学会调 tool 再 RL。
（stepfun 的人提到，RL 可能不涨点，但是会增强 agent 的鲁棒性

技术报告列表
Step 3.5 Flash
Step-DeepResearch

Step 3.5 Flash

还没读。

Step-DeepResearch

这是一个 32B 的小模型。

stepfun 认为，应该将复杂的深度研究任务，拆解为 4 个可训练的原子能力，并据此针对性地合成训练数据：

原子能力	数据合成方法	关键技术
规划 & 任务分解	逆向工程：从高质量报告反推任务查询	轨迹一致性过滤、后验约束
深度搜索 & 信息获取	知识图谱子图采样 + 多文档拓扑游走	难度过滤（QwQ-32B筛除简单任务）
反思 & 交叉验证	错误反思闭环 + 多智能体验证工作流	自动纠错、多源事实核查
报告生成	两阶段：Mid-training 学领域风格 + SFT 学格式规范	引用格式对齐、计划结构跟随

基于这四种能力，论文设计了合成数据的 Pipeline。它会输入一个领域主题和一份原始材料（如多份网页内容），让一个更强大的“教师模型”按以下顺序生成训练样本，覆盖了从微观到宏观的所有环节：

微观层面：
- 领域知识问答：针对材料提问，生成单跳或多跳问答对，训练模型的信息抽取和初步推理能力。
- 多文档摘要：要求模型总结多份材料的内容，训练信息整合能力。
中层决策层面：
- 高层规划合成：给定一个研究主题，生成详细的搜索计划，训练分解问题的能力。
- 行为反思合成：给定当前已收集的信息，判断信息是否足够、缺失了什么、下一步该如何搜索，训练自我评估能力。
宏观整合层面：
- 跨来源验证合成：对多份材料中的信息进行交叉验证，找出矛盾或相互佐证之处，训练批判性思维。
- 最终报告合成：基于所有材料，生成带引用的长篇研究报告，训练最终输出能力。

agentic 架构：采用精简 ReAct 单智能体架构，核心设计：

用户查询 → [规划 & 反思] ↔ [工具执行] ↔ [反馈 & 交叉验证] → 研究报告

训练流程：渐进式、三阶段：（发现这个 mid-training 跟 mirothinker 非常像）

预训练基座 (Qwen2.5-32B)
        ↓
📌 Stage 1: Agentic Mid-training
   • 32K 上下文：注入原子能力，纯文本推理
   • 128K 上下文：引入工具调用，真实任务场景
        ↓
📌 Stage 2: Supervised Fine-tuning (SFT)
   • 端到端轨迹组合原子能力
   • 数据清洗策略：最短正确轨迹、噪声注入、N-gram 去重、引用对齐
        ↓
📌 Stage 3: Reinforcement Learning (RL)
   • 两步骤逆向合成：任务 + Rubrics 联合生成
   • Checklist 式 Judger 奖励设计：二元映射消除中间态噪声
   • PPO 算法 + GAE 优势估计，真实工具环境交互

提出 ADR-Bench 基准：

为了在中文环境下进行可靠评估，团队构建了一个覆盖 12 个领域、包含多样化问题类型的基准。其亮点在于采用了真人专家超过 500 小时的精细标注，从事实准确性、逻辑严谨性、信息完整性等多个维度进行打分，解决了学术基准与真实需求脱节的问题。

posted @ 2026-05-25 11:47 MoonOut 阅读(51) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

LLM · 技术报告速读 | Stepfun 系列

技术报告列表

Step 3.5 Flash

Step-DeepResearch

公告