摘要: 一、RLHF微调三阶段 参考:https://huggingface.co/blog/rlhf 1)使用监督数据微调语言模型,和fine-tuning一致。 2)训练奖励模型 奖励模型是输入一个文本序列,模型给出符合人类偏好的奖励数值,这个奖励数值对于后面的强化学习训练非常重要。构建奖励模型的训练数 阅读全文
posted @ 2023-05-06 17:56 微笑sun 阅读(3110) 评论(0) 推荐(0) 编辑