【Parallel-R1调研报告】Parallel问题/Code Tool Use问题的sft数据构建

主要的方法分为：真实生成轨迹/对原有推理链改写/LLM直接生成三类
最终的目的，都是构造出高质量的数据。
进一步引申：什么才是高质量的数据？

Parallel

主要的三篇文章：
APR（4月）-->Parallel-R1（9月）-->ThreadWeaver（12月）

细节

训练管线

APR：
parallel-R1:sft+RL（sft+课程学习两阶段RL）
ThreadWeaver：sft数据格式冷启动（教会模型基本的并行推理格式），

sft数据构建

APR（生成轨迹）：

sft：使用状态机进行生成
Parallel-R1（数据开源，prompt开源，但是脚本没有开源）（LLM直接生成）：微调数据集为gsm8k，使用简单的数据流水线（我理解应该也是类似于状态机的方法）
一轮sft：直接进行sft
ThreadWeaver（数据脚本开源，但数据没有开源）（改写+生成轨迹）：
数据格式：使用一个强大的教师模型（如GPT-5）对Qwen3-8B生成的顺序推理轨迹进行“轻量级改写”，识别其中的并行结构并标注上 , 等控制标记。这避免了重新生成整个轨迹，保证了数据质量并与基础模型的行为对齐。几百条
BoN：二轮sft。第一阶段的SFT模型在大量提示上生成推理轨迹，并过滤出那些格式正确且答案正确的轨迹，形成一个更大的、由模型自身行为分布产生的数据集（约1.7万条）。
其他的有影响力工作的sft
mutliUniverse（数据开源，脚本开源）（改写）（纯sft流程，32B）：
sft：SFT 的核心是高质量并行化训练数据，通过自动化工具 Multiverse Curator 将传统串行推理链转化为 MapReduce 结构数据，无需人工标注：
解析与拆分：把 AR-LLM 生成的串行推理链（如数学题解题步骤）拆成树形摘要，区分主步骤和子步骤。
识别并行节点：自动判断哪些步骤无逻辑依赖（如分别计算两个独立质数的指数），标记为 “并行组”。
重构并行结构：用等控制标签包裹并行步骤，形成初步并行框架。
补全细节：将原始推理的详细内容填充到并行框架中，确保信息不丢失。
生成 MapReduce 格式：添加（任务目标）、（子任务执行）、（结果合并）标签，改写路径使其独立无交叉引用，最终形成 1K 样本的 Multiverse-1K 数据集。

Code Tool Use

ReTool（对原有推理链进行改写，prompt开源，数据开源）：通过结构化提示模板（见图8）将原始思维过程转化为代码增强的长形式推理轨迹，即用代码片段及其执行结果替换手动计算步骤。
RAGEN（对原有推理链进行改写，prompt开源，数据没有开源）：使用特定提示模板（图8）将 Dinit中的手动计算步骤替换为可执行的代码片段和解释器反馈，生成代码增强的推理轨迹。
Nemotron-Research-Tool-N1（状态机转换）：使用真实的交互来构造sft数据。

posted @ 2025-12-25 15:23 Brain404 阅读(19) 评论(0) 收藏举报

刷新页面返回顶部

rh-li

【Parallel-R1调研报告】Parallel问题/Code Tool Use问题的sft数据构建

Parallel

细节

训练管线

sft数据构建

Code Tool Use

公告