摘要:
大语言模型在训练过程中并不与人类“对话”,首先,需要将与人类互动获得的偏好数据提炼成奖励模型。 步骤 1:收集人类偏好数据 向人类展示一个提示和几个候选答案,通常是两个,有时更多。例如: 提示:“解释熵和交叉熵的区别。” 答案 A:过于技术性的答案 答案 B:清晰准确的答案 人类注释者标记:“B 更 阅读全文
posted @ 2025-10-25 18:59
CathyBryant
阅读(20)
评论(0)
推荐(0)
摘要:
我们来思考一下 H·v 的几何意义。H 将一个向量 v 变换成一个新的向量。通常,这种变换会旋转和拉伸 v,同时改变它的方向和长度。 但对于特殊的向量——特征向量,H 只会拉伸(或收缩)它们。它根本不会旋转它们。H·v = λv 的意思是“H 只是将 v 缩放了 λ 倍。” 现在,(H - λI)v 阅读全文
posted @ 2025-10-25 10:50
CathyBryant
阅读(10)
评论(0)
推荐(0)

浙公网安备 33010602011771号