上一页 1 ··· 3 4 5 6 7 8 9 10 下一页
摘要: 1. 近似等效配置(Near-equivalent configurations) 将大型模型中的所有参数想象成控制台上的旋钮,这些旋钮的不同设置可以产生几乎相同的输出。 例如: - 如果一个神经元将其权重加倍,而下一层将其权重减半,整体计算几乎不会发生变化。 - 或者,几个注意力头可能会学习略有不 阅读全文
posted @ 2025-10-12 11:32 CathyBryant 阅读(3) 评论(0) 推荐(0)
摘要: 互信息 I(X;Y) 衡量的是,了解 X 能告诉你多少关于 Y 的信息,也就是通过学习 X 能解决多少关于 Y 的不确定性。香农将其定义为: I(X;Y) = H(Y) - H(Y|X) 其中,H(Y) 是 Y 本身的熵(不确定性),H(Y|X) 是在已知 X 的情况下 Y 的熵。两者之差就是 X 阅读全文
posted @ 2025-10-12 10:16 CathyBryant 阅读(8) 评论(0) 推荐(0)
摘要: 想象我们正站在一片风景中,不是草地和山丘,而是“损失函数风景”。每个点都是模型可能拥有的一组权重,高度代表模型在那里的“错误”程度。 低谷=好,高峰=坏。 Hessain矩阵?如果说坡度(斜率)告诉你哪条路是下坡,那么 Hessian 矩阵则告诉你坡度本身是如何变化的(曲率): - 山谷是陡峭的还是 阅读全文
posted @ 2025-10-11 22:02 CathyBryant 阅读(23) 评论(0) 推荐(0)
摘要: “球极平面投影”,这是一个能把整个地球(球面)几乎完美地压扁成一张平面地图的魔法。 它怎么工作? 1. 想象一个透明的地球仪,北极点贴着桌面。 2. 在南极点放一个点光源。 3. 光线会向上照射,将地球仪上的每一个点(比如城市、山脉)投影到桌面上,形成一张地图。 它的魔法效果(和缺陷): - 圆还是 阅读全文
posted @ 2025-10-10 23:09 CathyBryant 阅读(13) 评论(0) 推荐(0)
摘要: 事实上,信息论的美妙之处在于,它能将看似极其模糊的东西——“信息”——转化为数学上的精确信息。 香农的核心洞见是,信息其实就是“惊喜”。如果我告诉你一些你已经确定的事情,那么我给你的信息量为零。但如果我告诉你一些意料之外的事情,那就是高信息量。 他对此进行了量化:信息的衡量标准是它能解决多少不确定性 阅读全文
posted @ 2025-10-10 22:17 CathyBryant 阅读(6) 评论(0) 推荐(0)
摘要: 每个进入 Transformer 的单词(token)首先会被转换成一个向量:高维空间中的一个点。在每一层,注意力机制不会硬性地分配“这个对应那个”,而是计算所有 token 对之间的软关联。 其结构如下: \text{Attention}(Q,K,V) = \text{softmax}\!\lef 阅读全文
posted @ 2025-10-09 23:00 CathyBryant 阅读(12) 评论(0) 推荐(0)
摘要: Transformer 并非由规则“教导”,它通过优化来学习,就像 CNN 或 SVM 一样,只不过是在高维空间中进行。 其核心仍然是损失函数和优化器。对于像ChatGPT这样的语言模型,损失通常是下一个标记分布的交叉熵: L = - \sum_i \log P_\theta(t_i | t_{<i 阅读全文
posted @ 2025-10-09 20:45 CathyBryant 阅读(29) 评论(0) 推荐(0)
摘要: 泰勒级数,形如:f(x) = f(a) + f'(a)·(x-a) + f''(a)·(x-a)²/2! + f'''(a)·(x-a)³/3! + ... 导数告诉我们局部行为,在某个点,无穷小的附近发生了什么。那么局部信息如何重建全局函数呢? 关键在于,我们不仅仅使用一个导数,我们用的是所有导数 阅读全文
posted @ 2025-10-07 22:23 CathyBryant 阅读(4) 评论(0) 推荐(0)
摘要: 纽结理论?好消息是:它的起点,几乎不需要任何前置知识。 它需要的不是公式,而是一种思维方式的转换。让我们像玩游戏一样,从头开始: 第一步:忘记“绳子”,想象“世界线” 暂时忘掉真实的、有粗细的绳子。请想象一条在时空中无限细、而且首尾相接的线(我们称之为“闭曲线”)。它的存在,就是为了研究“打结”这个 阅读全文
posted @ 2025-10-07 13:41 CathyBryant 阅读(37) 评论(0) 推荐(0)
摘要: 拉姆齐理论(Ramsey Theory) 它的核心精神是:在足够大的无序中,必然会出现有序的模式。 它提出的典型问题是:“需要多少人参加聚会,才能保证至少有三个人彼此都认识,或者彼此都不认识?”(拉姆齐数 R(3,3) = 6) 第一幕:派对上的必然性 想象一个派对。客人们随机地站着、聊天。现在,我 阅读全文
posted @ 2025-10-06 21:52 CathyBryant 阅读(18) 评论(0) 推荐(0)
上一页 1 ··· 3 4 5 6 7 8 9 10 下一页