会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
zz-w
博客园
首页
新随笔
联系
订阅
管理
2024年12月10日
基于人类反馈的强化学习 RLHF
摘要: 1.强化学习和语言模型的联系 agent: 语言模型本身 state: prompt(input tokens) action: 选择哪个token作为下一个token(贪婪,top k,top p) reward model:当生成‘好的回复’语言模型应当被奖励,当生成‘差的回复’语言模型不会受到
阅读全文
posted @ 2024-12-10 16:19 AAA建材王师傅
阅读(258)
评论(0)
推荐(1)
公告