随笔档案「2025年4月21日」：LLM中的RLHF ... - AI_Engineer

2025年4月21日

摘要：我们前面介绍到instructGPT训练过程可以大概分为3个步骤： Step1：在监督数据集上微调模型（SFT） Step2: 训练reward model Step3：通过RLHF训练出符合人类偏好的模型我们知道，RLHF的目标是减少模型的偏见，产出符合人类偏好的回答，接下来我们详细介绍一下RL 阅读全文

posted @ 2025-04-21 16:53 AI_Engineer 阅读(203) 评论(0) 推荐(0)

xd_xumaomao

公告