随笔档案「2025年10月23日」：LLM 场景下的强化学习技术扫盲 ... - marsggbo

2025年10月23日

摘要： 1. 强化学习基础：行业黑话想象你正在和一个刚训练好的语言模型聊天。你问：“今天过得怎么样？” 模型可能回：“还行。” 也可能回：“我是个 AI，没有感情。” 人类觉得前者更自然、更友好——这就是偏好反馈。强化学习（RL）在 LLM 中的核心任务，就是让模型学会生成“人类更喜欢”的回复。为了做到阅读全文

posted @ 2025-10-23 22:23 marsggbo 阅读(286) 评论(0) 推荐(0)

marsggbo

互道晚安，王者峡谷见

公告