会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Phile-matology
博客园
首页
新随笔
联系
订阅
管理
2025年5月22日
补全llm知识体系的地基:RL&RLHF
摘要: 强化学习在LLM上的部分应用 偏好学习:向人类的对齐 LLM需要学习到人类的偏好,提供人类更喜欢的输出 没有一个明确的指标可以用于计算“一段输出是否足够好” 人类现场标注不可能跟得上LLM的优化节奏 奖励模型Reward Model 收集人类的偏好对 根据偏好对输入同一个网络的分差与实际分差作为lo
阅读全文
posted @ 2025-05-22 01:04 Phile-matology
阅读(27)
评论(0)
推荐(0)
公告