会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
marsggbo
互道晚安,王者峡谷见
博客园
首页
新随笔
联系
订阅
管理
2025年10月23日
LLM 场景下的强化学习技术扫盲
摘要: 1. 强化学习基础:行业黑话 想象你正在和一个刚训练好的语言模型聊天。你问:“今天过得怎么样?” 模型可能回:“还行。” 也可能回:“我是个 AI,没有感情。” 人类觉得前者更自然、更友好——这就是偏好反馈。强化学习(RL)在 LLM 中的核心任务,就是让模型学会生成“人类更喜欢”的回复。 为了做到
阅读全文
posted @ 2025-10-23 22:23 marsggbo
阅读(155)
评论(0)
推荐(0)
公告