上一页 1 ··· 4 5 6 7 8 9 10 下一页
摘要: 我们来简单了解一下混合专家 (MoE) 理念。 在一个普通的 Transformer 前馈(feed-forward)模块中,你有一个大矩阵: FFN(x) = W_2 sigma(W_1 x + b_1) + b_2 每个 token x 都会经过相同的权重 W_1 和 W_2,所以成本总是相同的 阅读全文
posted @ 2025-10-06 19:47 CathyBryant 阅读(21) 评论(0) 推荐(0)
摘要: 你赢得了这一切。 你现在理解了e^(ix),你看到了它是如何绕单位圆旋转的。你知道e很特别,π是半个圆…… 所以:e^(iπ)的意思是“从1开始,旋转π弧度,旋转半个圆。” 从1开始旋转半个圆,结果就是……-1。 所以e^(iπ) = -1。 两边都加1:e^(iπ) + 1 = 0。 五个基本常数 阅读全文
posted @ 2025-10-05 13:50 CathyBryant 阅读(18) 评论(0) 推荐(0)
摘要: 你知道常规数,数轴,对吧?1、2、3、-5、π,都位于那条线上。 复平面增加了另一个维度。它就像……你拥有的不仅仅是一条线,而是一个完整的平面。常规数位于横轴上,但现在还有一个纵轴,用于表示“虚数”,i 的倍数,其中 i² = -1。 所以复数(complex number)看起来像:a + bi。 阅读全文
posted @ 2025-10-05 09:31 CathyBryant 阅读(5) 评论(0) 推荐(0)
摘要: 微积分基本定理,是连接导数和积分的桥梁,表明它们是相互对立的。 你知道导数是如何测量变化率的吗?变化有多陡,变化有多快?嗯,积分正好相反,它累积变化。它把所有微小的变化加起来,得到总数。 可以这样想,如果导数是速度(位置变化的速度),那么积分就是总行进距离(将所有速度随时间累加)。 基本定理说:微分 阅读全文
posted @ 2025-10-04 16:36 CathyBryant 阅读(17) 评论(0) 推荐(0)
摘要: 你知道吗?你对“a^x = e^(x·lna) 让 e 很特别”这个论点本身持怀疑态度是对的。这只是符号变换而已,我们为什么要关心其他指数函数是否可以用e来表示呢?仅凭这一点,e并不特殊。 但随后你提到了一个关键点:“指数函数的基本含义”。你还提到了“随时间翻倍”,或者更确切地说,与已有值成比例的增 阅读全文
posted @ 2025-10-04 10:44 CathyBryant 阅读(7) 评论(0) 推荐(0)
摘要: 从字面意义上讲,对于模型生成的每个新词,模型都必须在输入序列和新token上重新运行所有这些层。 这是因为模型的架构不像一个拥有持续状态的流式大脑;它是一个巨大的前馈机器。每个预测都是同一个堆栈在(稍长的)上下文上的一次全新传递。但有两个重要的细微差别: - 缓存。实际上,模型不会从头开始重新计算所 阅读全文
posted @ 2025-10-03 13:39 CathyBryant 阅读(53) 评论(0) 推荐(0)
摘要: 给 e 戴上帽子!我喜欢这个:e^x,把它打扮得漂漂亮亮,准备给我们展示一些精彩的东西。 所以,是的,e^x 的导数等于它本身,这非常特别。你一定会好奇:它是唯一这样的函数吗? 嗯……有点?如果我们要寻找 f'(x) = f(x) 的函数,那么任何形式为 f(x) = Ce^x 的函数都可以,其中 阅读全文
posted @ 2025-10-03 06:57 CathyBryant 阅读(53) 评论(0) 推荐(0)
摘要: 回顾: - Q、K、V 都是词元(token)级别的投影。 - 注意力机制是将 Q 与 K 进行比较,以确定谁影响了谁,然后从 V 中提取信息。 现在,回答一个更尖锐的问题:这些token的输出是如何变成“最终输出”的? 这是分层的情况: 1. 经过注意力机制后,每个token的表征:这还不是最终的 阅读全文
posted @ 2025-10-02 15:26 CathyBryant 阅读(14) 评论(0) 推荐(0)
摘要: 在真实对话中,大模型的工作远不止回答“是猫还是狗?”那么简单。 但 Transformer 并不真正关心内容是什么,它只是把所有内容编码成向量。所以,即使是你细微的语气、停顿、隐喻……都变成了词元 → 嵌入 → 向量(tokens → embeddings → vectors)。 在自注意力层内部, 阅读全文
posted @ 2025-10-02 09:00 CathyBryant 阅读(14) 评论(0) 推荐(0)
摘要: Transformer的自注意力机制就像一个房间里挤满了人,他们都在互相倾听。每个“token”(词元、单词的片段)都会问:“现在这个房间里谁对我来说最重要?”,并相应地分配权重。最终得到的不仅仅是一条思路,而是一张关联图,一个不断变化的领域,记录着谁在“观察”谁。 模型一层一层地构建出更丰富的关联 阅读全文
posted @ 2025-10-02 08:47 CathyBryant 阅读(11) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 10 下一页