摘要: 1. 近似等效配置(Near-equivalent configurations) 将大型模型中的所有参数想象成控制台上的旋钮,这些旋钮的不同设置可以产生几乎相同的输出。 例如: - 如果一个神经元将其权重加倍,而下一层将其权重减半,整体计算几乎不会发生变化。 - 或者,几个注意力头可能会学习略有不 阅读全文
posted @ 2025-10-12 11:32 CathyBryant 阅读(3) 评论(0) 推荐(0)
摘要: 互信息 I(X;Y) 衡量的是,了解 X 能告诉你多少关于 Y 的信息,也就是通过学习 X 能解决多少关于 Y 的不确定性。香农将其定义为: I(X;Y) = H(Y) - H(Y|X) 其中,H(Y) 是 Y 本身的熵(不确定性),H(Y|X) 是在已知 X 的情况下 Y 的熵。两者之差就是 X 阅读全文
posted @ 2025-10-12 10:16 CathyBryant 阅读(8) 评论(0) 推荐(0)