【调研报告】RL有哪些数据技巧?

LIMR(25.02,SJTU):从大数据集里面挑出小数据集。方法:
1. 计算第k步中所有样本平均奖励的变化情况(跑一小步就可以)
2. 对于第i个样本,计算其奖励和平均奖励曲线的对齐程度
3. 选出对齐程度高的样本作为训练样本
缺点:没有办法从大样本集合中选出高质量样本
DAPO:进行动态采样
RAFT:同样的,进行动态采样(学有对有错的题目);或者学全对的题目,也会很好;反之,学习
样本难度一比一比一配比:LightPPO
小红书的方法:

  1. 拿base模型rollout32次,一次都做不对的数据扔掉
  2. 先在全量数据上sft,将做不对的作为RL的训练样本
    R.Z的方法
  3. RL中混入数学数据集(GSM8K)效果可能会很好

clpo中提到, 可以使用模型自己的pass@k来衡量难度
JUSTRL中提到,或许没有任何trick也可以很好?

将训练数据集和测试集计算embedding相似度,进行筛选(见medical-gpt)

posted @ 2025-12-15 18:29  Brain404  阅读(6)  评论(0)    收藏  举报