摘要:
想学习第一篇博客: https://huggingface.co/blog/zh/rlhf RLHF 技术分解 RLHF 是一项涉及多个模型和不同训练阶段的复杂概念,这里我们按三个步骤分解: 预训练一个语言模型 (LM) ; 聚合问答数据并训练一个奖励模型 (Reward Model,RM) ; 用 阅读全文
posted @ 2023-10-03 23:31
张博的博客
阅读(182)
评论(0)
推荐(0)
contact me:wechat 15122306087