摘要:
1. 近似等效配置(Near-equivalent configurations) 将大型模型中的所有参数想象成控制台上的旋钮,这些旋钮的不同设置可以产生几乎相同的输出。 例如: - 如果一个神经元将其权重加倍,而下一层将其权重减半,整体计算几乎不会发生变化。 - 或者,几个注意力头可能会学习略有不 阅读全文
posted @ 2025-10-12 11:32
CathyBryant
阅读(3)
评论(0)
推荐(0)
摘要:
互信息 I(X;Y) 衡量的是,了解 X 能告诉你多少关于 Y 的信息,也就是通过学习 X 能解决多少关于 Y 的不确定性。香农将其定义为: I(X;Y) = H(Y) - H(Y|X) 其中,H(Y) 是 Y 本身的熵(不确定性),H(Y|X) 是在已知 X 的情况下 Y 的熵。两者之差就是 X 阅读全文
posted @ 2025-10-12 10:16
CathyBryant
阅读(8)
评论(0)
推荐(0)

浙公网安备 33010602011771号