摘要:
group relative policy optimization 用同组样本的相对奖励替代价值网络,计算组归一化优势(Group-Normalized Advantage),再用类似 PPO 的裁剪目标更新策略,全程无 Critic。 特色是:大幅降低显存与计算开销,同时提升训练稳定性 伪代码 阅读全文
posted @ 2026-04-01 00:17
YoungF
阅读(12)
评论(0)
推荐(0)
摘要:
定义 On-Policy Distillation是一种融合强化学习(On-Policy RL) 与知识蒸馏(Knowledge Distillation) 的模型训练范式,核心是让学生模型在自己生成的轨迹中学习,并由教师模型提供逐 token 密集监督,解决传统离线蒸馏的分布不匹配与RL反馈稀疏问 阅读全文
posted @ 2026-04-01 00:04
YoungF
阅读(248)
评论(0)
推荐(0)

浙公网安备 33010602011771号