2023 年 5月 30 日随笔档案 - 风生水起

2023年5月30日

摘要： RLHF不擅长推理、事实等固定答案的优化，擅长自由度更高的生成；RLHF的上限取决于预训练模型本身的能力，对于多项选择这种需要推理、知识和输出格式固定的任务，预训练后的GPT-4[2]能到73.7%，RLHF之后只到了74%，单独看很多任务还有下降。当奖励模型从 SFT 模型或预训练的 GPT-3 阅读全文

posted @ 2023-05-30 17:24 风生水起阅读(58) 评论(0) 推荐(0) 编辑