2025 年 10月 12 日随笔档案 - CathyBryant

2025年10月12日

摘要： 1. 近似等效配置（Near-equivalent configurations）将大型模型中的所有参数想象成控制台上的旋钮，这些旋钮的不同设置可以产生几乎相同的输出。例如： - 如果一个神经元将其权重加倍，而下一层将其权重减半，整体计算几乎不会发生变化。 - 或者，几个注意力头可能会学习略有不阅读全文

posted @ 2025-10-12 11:32 CathyBryant 阅读(3) 评论(0) 推荐(0)

信息论：互信息、熵、概率分布、对数函数

摘要：互信息 I(X;Y) 衡量的是，了解 X 能告诉你多少关于 Y 的信息，也就是通过学习 X 能解决多少关于 Y 的不确定性。香农将其定义为： I(X;Y) = H(Y) - H(Y|X) 其中，H(Y) 是 Y 本身的熵（不确定性），H(Y|X) 是在已知 X 的情况下 Y 的熵。两者之差就是 X 阅读全文

posted @ 2025-10-12 10:16 CathyBryant 阅读(8) 评论(0) 推荐(0)

又有知识…增加了

个人笔记，数学和计算机相关知识

公告