2023 年 11月 9 日随笔档案 - kkzhang

2023年11月9日

摘要：参考Github 开源模型 LLM-Tuning 一、简介（1）RLHF (基于人类反馈的强化学习) 分为三步： SFT (Supervised Fine-Tuning): 有监督的微调，使用正常的 instruction following 或者对话的样本，来训练模型的基础对话、听从 promp 阅读全文

posted @ 2023-11-09 16:03 kkzhang 阅读(885) 评论(0) 推荐(0) 编辑

基于人类反馈的强化学习，Reinforcement Learning from Human Feedback (RLHF)

摘要：基于人类反馈的强化学习， RLHF，转载参考链接 RLHF 是一项涉及多个模型和不同训练阶段的复杂概念，可以按三个步骤分解：预训练一个语言模型 (LM) ；聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；用强化学习 (RL) 方式微调 LM。 Step 1. 预训练语言模阅读全文

posted @ 2023-11-09 10:39 kkzhang 阅读(380) 评论(0) 推荐(1) 编辑

Dream

公告