【Parallel-R1调研报告】Parallel问题/Code Tool Use问题的sft数据构建

主要的方法分为:真实生成轨迹/对原有推理链改写/LLM直接生成 三类
最终的目的,都是构造出高质量的数据。
进一步引申:什么才是高质量的数据?

Parallel

主要的三篇文章:
APR(4月)-->Parallel-R1(9月)-->ThreadWeaver(12月)

细节

训练管线

APR:
parallel-R1:sft+RL(sft+课程学习两阶段RL)
ThreadWeaver:sft数据格式冷启动(教会模型基本的并行推理格式),

sft数据构建

APR(生成轨迹):

  • sft:使用状态机进行生成
    Parallel-R1(数据开源,prompt开源,但是脚本没有开源)(LLM直接生成):微调数据集为gsm8k,使用简单的数据流水线(我理解应该也是类似于状态机的方法)
  • 一轮sft:直接进行sft
    ThreadWeaver(数据脚本开源,但数据没有开源)(改写+生成轨迹):
  • 数据格式:使用一个强大的教师模型(如GPT-5)对Qwen3-8B生成的顺序推理轨迹进行“轻量级改写”,识别其中的并行结构并标注上 , 等控制标记。这避免了重新生成整个轨迹,保证了数据质量并与基础模型的行为对齐。几百条
  • BoN:二轮sft。第一阶段的SFT模型在大量提示上生成推理轨迹,并过滤出那些格式正确且答案正确的轨迹,形成一个更大的、由模型自身行为分布产生的数据集(约1.7万条)。
    其他的有影响力工作的sft
    mutliUniverse(数据开源,脚本开源)(改写)(纯sft流程,32B):
  • sft:SFT 的核心是高质量并行化训练数据,通过自动化工具 Multiverse Curator 将传统串行推理链转化为 MapReduce 结构数据,无需人工标注:
    解析与拆分:把 AR-LLM 生成的串行推理链(如数学题解题步骤)拆成树形摘要,区分主步骤和子步骤。
    识别并行节点:自动判断哪些步骤无逻辑依赖(如分别计算两个独立质数的指数),标记为 “并行组”。
    重构并行结构:用等控制标签包裹并行步骤,形成初步并行框架。
    补全细节:将原始推理的详细内容填充到并行框架中,确保信息不丢失。
    生成 MapReduce 格式:添加(任务目标)、(子任务执行)、(结果合并)标签,改写路径使其独立无交叉引用,最终形成 1K 样本的 Multiverse-1K 数据集。

Code Tool Use

ReTool(对原有推理链进行改写,prompt开源,数据开源):通过结构化提示模板(见图8)将原始思维过程转化为代码增强的长形式推理轨迹,即用代码片段及其执行结果替换手动计算步骤。
RAGEN(对原有推理链进行改写,prompt开源,数据没有开源):使用特定提示模板(图8)将 Dinit中的手动计算步骤替换为可执行的代码片段和解释器反馈,生成代码增强的推理轨迹。
Nemotron-Research-Tool-N1(状态机转换):使用真实的交互来构造sft数据。

posted @ 2025-12-25 15:23  Brain404  阅读(19)  评论(0)    收藏  举报