会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
风生水起
善战者,求之于势,不责于人,故能择人而任势。
博客园
首页
新随笔
联系
订阅
管理
2023年5月30日
RLHF
摘要: RLHF不擅长推理、事实等固定答案的优化,擅长自由度更高的生成;RLHF的上限取决于预训练模型本身的能力,对于多项选择这种需要推理、知识和输出格式固定的任务,预训练后的GPT-4[2]能到73.7%,RLHF之后只到了74%,单独看很多任务还有下降。 当奖励模型从 SFT 模型或预训练的 GPT-3
阅读全文
posted @ 2023-05-30 17:24 风生水起
阅读(58)
评论(0)
推荐(0)
编辑