2025 年 5月 22 日随笔档案 - Phile-matology

2025年5月22日

摘要：强化学习在LLM上的部分应用偏好学习：向人类的对齐 LLM需要学习到人类的偏好，提供人类更喜欢的输出没有一个明确的指标可以用于计算“一段输出是否足够好” 人类现场标注不可能跟得上LLM的优化节奏奖励模型Reward Model 收集人类的偏好对根据偏好对输入同一个网络的分差与实际分差作为lo 阅读全文

posted @ 2025-05-22 01:04 Phile-matology 阅读(27) 评论(0) 推荐(0)

Phile-matology

公告