摘要: 我们前面介绍到instructGPT训练过程可以大概分为3个步骤: Step1:在监督数据集上微调模型(SFT) Step2: 训练reward model Step3:通过RLHF训练出符合人类偏好的模型 我们知道,RLHF的目标是减少模型的偏见,产出符合人类偏好的回答,接下来我们详细介绍一下RL 阅读全文
posted @ 2025-04-21 16:53 AI_Engineer 阅读(141) 评论(0) 推荐(0)