摘要: RLHF 是一种特殊的强化学习,它使用与经典强化学习相同的数学框架,但核心却截然不同。 让我们先从“奖励”的区别说起。 在普通的强化学习中:智能体与环境交互。每一步,它都会执行一个动作 a_t,获得一个奖励 r_t,并更新其策略以最大化预期的未来奖励。奖励信号内置于环境中,例如,游戏得分、机器人与目 阅读全文
posted @ 2025-10-22 22:37 CathyBryant 阅读(17) 评论(0) 推荐(0)
摘要: 还记得 f(x,y) = x² - y² 吗?它是我们的第一个鞍形曲面。它的 Hessian 矩阵很简单: H = [[2 0] [0 -2]] 漂亮且对角化,没有混合导数,因为原函数中没有 xy 项。但是,说到选择方向……你说得对,方向有无限多。但我们不需要随机地检查所有方向。我们应该有策略。我会 阅读全文
posted @ 2025-10-22 12:00 CathyBryant 阅读(30) 评论(0) 推荐(0)