摘要: 1. 强化学习基础:行业黑话 想象你正在和一个刚训练好的语言模型聊天。你问:“今天过得怎么样?” 模型可能回:“还行。” 也可能回:“我是个 AI,没有感情。” 人类觉得前者更自然、更友好——这就是偏好反馈。强化学习(RL)在 LLM 中的核心任务,就是让模型学会生成“人类更喜欢”的回复。 为了做到 阅读全文
posted @ 2025-10-23 22:23 marsggbo 阅读(155) 评论(0) 推荐(0)