摘要:
① 假设正确样本的 CELoss 上限是 ρ,可推出错误样本相对 P_ψ(x) 分布的 KL 散度上限,从而筛出可信样本、翻转不可信样本;② 用归一化到 (-1,1) 的 intrinsic reward 预训练 reward model。 阅读全文
posted @ 2024-07-25 16:10
MoonOut
阅读(188)
评论(0)
推荐(0)
摘要:
D_KL(P||Q) = ∫p(x) log p(x) - ∫p(x) log q(x) = H(P) + H(P,Q) 阅读全文
posted @ 2024-07-25 12:35
MoonOut
阅读(363)
评论(0)
推荐(0)

浙公网安备 33010602011771号