摘要: 强化学习在LLM上的部分应用 偏好学习:向人类的对齐 LLM需要学习到人类的偏好,提供人类更喜欢的输出 没有一个明确的指标可以用于计算“一段输出是否足够好” 人类现场标注不可能跟得上LLM的优化节奏 奖励模型Reward Model 收集人类的偏好对 根据偏好对输入同一个网络的分差与实际分差作为lo 阅读全文
posted @ 2025-05-22 01:04 Phile-matology 阅读(27) 评论(0) 推荐(0)