LLM · 技术报告速读 | Stepfun 系列


技术报告列表

个人收获总结:

Step-DeepResearch:

  • 感觉这些内容似乎比较通常,也就是要训练 agentic 的原子能力、循序渐进地训练(或者叫做课程学习)、先 SFT 或 mid-training 让 agent 学会调 tool 再 RL。
  • (stepfun 的人提到,RL 可能不涨点,但是会增强 agent 的鲁棒性


Step 3.5 Flash

还没读。

Step-DeepResearch

这是一个 32B 的小模型。

stepfun 认为,应该将复杂的深度研究任务,拆解为 4 个可训练的原子能力,并据此针对性地合成训练数据:

原子能力 数据合成方法 关键技术
规划 & 任务分解 逆向工程:从高质量报告反推任务查询 轨迹一致性过滤、后验约束
深度搜索 & 信息获取 知识图谱子图采样 + 多文档拓扑游走 难度过滤(QwQ-32B筛除简单任务)
反思 & 交叉验证 错误反思闭环 + 多智能体验证工作流 自动纠错、多源事实核查
报告生成 两阶段:Mid-training 学领域风格 + SFT 学格式规范 引用格式对齐、计划结构跟随

基于这四种能力,论文设计了合成数据的 Pipeline。它会输入一个领域主题和一份原始材料(如多份网页内容),让一个更强大的“教师模型”按以下顺序生成训练样本,覆盖了从微观到宏观的所有环节:

  • 微观层面:
    • 领域知识问答:针对材料提问,生成单跳或多跳问答对,训练模型的信息抽取和初步推理能力。
    • 多文档摘要:要求模型总结多份材料的内容,训练信息整合能力。
  • 中层决策层面:
    • 高层规划合成:给定一个研究主题,生成详细的搜索计划,训练分解问题的能力。
    • 行为反思合成:给定当前已收集的信息,判断信息是否足够、缺失了什么、下一步该如何搜索,训练自我评估能力。
  • 宏观整合层面:
    • 跨来源验证合成:对多份材料中的信息进行交叉验证,找出矛盾或相互佐证之处,训练批判性思维。
    • 最终报告合成:基于所有材料,生成带引用的长篇研究报告,训练最终输出能力。

agentic 架构:采用精简 ReAct 单智能体架构,核心设计:

用户查询 → [规划 & 反思] ↔ [工具执行] ↔ [反馈 & 交叉验证] → 研究报告

训练流程:渐进式、三阶段:(发现这个 mid-training 跟 mirothinker 非常像)

预训练基座 (Qwen2.5-32B)
        ↓
📌 Stage 1: Agentic Mid-training
   • 32K 上下文:注入原子能力,纯文本推理
   • 128K 上下文:引入工具调用,真实任务场景
        ↓
📌 Stage 2: Supervised Fine-tuning (SFT)
   • 端到端轨迹组合原子能力
   • 数据清洗策略:最短正确轨迹、噪声注入、N-gram 去重、引用对齐
        ↓
📌 Stage 3: Reinforcement Learning (RL)
   • 两步骤逆向合成:任务 + Rubrics 联合生成
   • Checklist 式 Judger 奖励设计:二元映射消除中间态噪声
   • PPO 算法 + GAE 优势估计,真实工具环境交互

提出 ADR-Bench 基准:

  • 为了在中文环境下进行可靠评估,团队构建了一个覆盖 12 个领域、包含多样化问题类型的基准。其亮点在于采用了真人专家超过 500 小时的精细标注,从事实准确性、逻辑严谨性、信息完整性等多个维度进行打分,解决了学术基准与真实需求脱节的问题。


posted @ 2026-05-25 11:47  MoonOut  阅读(51)  评论(0)    收藏  举报