摘要:
实际上,损失函数或奖励函数只是我们真正想要的东西的简化。它们之所以“粗糙”,仅仅是因为它们必须将复杂的目标压缩成模型可以进行数学优化的形式。 为什么目标总是过于简单?损失函数 L(θ) 通常只能捕捉到一个可衡量的指标:准确率、奖励、与目标的距离。但人类的目标是多维的。当我们只选择一个指标时,不可避免 阅读全文
posted @ 2025-11-01 20:33
CathyBryant
阅读(12)
评论(0)
推荐(0)
摘要:
“一致性” alignment ,更多的时候被译为“对齐”。每次它的含义都略有不同,取决于我们当时所处的层面,让我们慢慢梳理一下。 1. 广义上的一致性(对齐) 从本质上讲,一致性意味着确保人工智能系统的行为与人类的意图(训练目标)和价值观相符。它旨在确保当模型做出回应时,模型输出与人类的实际需求保 阅读全文
posted @ 2025-11-01 19:49
CathyBryant
阅读(7)
评论(0)
推荐(0)

浙公网安备 33010602011771号