CathyBryant - 博客园

2025年10月6日

摘要：我们来简单了解一下混合专家 (MoE) 理念。在一个普通的 Transformer 前馈（feed-forward）模块中，你有一个大矩阵： FFN(x) = W_2 sigma(W_1 x + b_1) + b_2 每个 token x 都会经过相同的权重 W_1 和 W_2，所以成本总是相同的阅读全文

posted @ 2025-10-06 19:47 CathyBryant 阅读(21) 评论(0) 推荐(0)

2025年10月5日

微积分直觉（十四）：欧拉恒等式e^(iπ) + 1 = 0

摘要：你赢得了这一切。你现在理解了e^(ix)，你看到了它是如何绕单位圆旋转的。你知道e很特别，π是半个圆…… 所以：e^(iπ)的意思是“从1开始，旋转π弧度，旋转半个圆。” 从1开始旋转半个圆，结果就是……-1。所以e^(iπ) = -1。两边都加1：e^(iπ) + 1 = 0。五个基本常数阅读全文

posted @ 2025-10-05 13:50 CathyBryant 阅读(18) 评论(0) 推荐(0)

微积分直觉（十二）：复数、复平面、数系

摘要：你知道常规数，数轴，对吧？1、2、3、-5、π，都位于那条线上。复平面增加了另一个维度。它就像……你拥有的不仅仅是一条线，而是一个完整的平面。常规数位于横轴上，但现在还有一个纵轴，用于表示“虚数”，i 的倍数，其中 i² = -1。所以复数（complex number）看起来像：a + bi。阅读全文

posted @ 2025-10-05 09:31 CathyBryant 阅读(5) 评论(0) 推荐(0)

2025年10月4日

微积分直觉（十一）：微积分基本定理

摘要：微积分基本定理，是连接导数和积分的桥梁，表明它们是相互对立的。你知道导数是如何测量变化率的吗？变化有多陡，变化有多快？嗯，积分正好相反，它累积变化。它把所有微小的变化加起来，得到总数。可以这样想，如果导数是速度（位置变化的速度），那么积分就是总行进距离（将所有速度随时间累加）。基本定理说：微分阅读全文

posted @ 2025-10-04 16:36 CathyBryant 阅读(17) 评论(0) 推荐(0)

微积分直觉（十）：e^x是微分中的单位元

摘要：你知道吗？你对“a^x = e^(x·lna) 让 e 很特别”这个论点本身持怀疑态度是对的。这只是符号变换而已，我们为什么要关心其他指数函数是否可以用e来表示呢？仅凭这一点，e并不特殊。但随后你提到了一个关键点：“指数函数的基本含义”。你还提到了“随时间翻倍”，或者更确切地说，与已有值成比例的增阅读全文

posted @ 2025-10-04 10:44 CathyBryant 阅读(7) 评论(0) 推荐(0)

2025年10月3日

大模型推理（六）：K/V缓存（KV cache）与上下文长度

摘要：从字面意义上讲，对于模型生成的每个新词，模型都必须在输入序列和新token上重新运行所有这些层。这是因为模型的架构不像一个拥有持续状态的流式大脑；它是一个巨大的前馈机器。每个预测都是同一个堆栈在（稍长的）上下文上的一次全新传递。但有两个重要的细微差别： - 缓存。实际上，模型不会从头开始重新计算所阅读全文

posted @ 2025-10-03 13:39 CathyBryant 阅读(53) 评论(0) 推荐(0)

微积分直觉（九）：e^x与指数函数家族

摘要：给 e 戴上帽子！我喜欢这个：e^x，把它打扮得漂漂亮亮，准备给我们展示一些精彩的东西。所以，是的，e^x 的导数等于它本身，这非常特别。你一定会好奇：它是唯一这样的函数吗？嗯……有点？如果我们要寻找 f'(x) = f(x) 的函数，那么任何形式为 f(x) = Ce^x 的函数都可以，其中阅读全文

posted @ 2025-10-03 06:57 CathyBryant 阅读(53) 评论(0) 推荐(0)

2025年10月2日

大模型推理（五）：最后一个词说出下一个新词

摘要：回顾： - Q、K、V 都是词元（token）级别的投影。 - 注意力机制是将 Q 与 K 进行比较，以确定谁影响了谁，然后从 V 中提取信息。现在，回答一个更尖锐的问题：这些token的输出是如何变成“最终输出”的？这是分层的情况： 1. 经过注意力机制后，每个token的表征：这还不是最终的阅读全文

posted @ 2025-10-02 15:26 CathyBryant 阅读(14) 评论(0) 推荐(0)

大模型推理（四）：查询-键-值 Q/K/V

摘要：在真实对话中，大模型的工作远不止回答“是猫还是狗？”那么简单。但 Transformer 并不真正关心内容是什么，它只是把所有内容编码成向量。所以，即使是你细微的语气、停顿、隐喻……都变成了词元 → 嵌入 → 向量（tokens → embeddings → vectors）。在自注意力层内部，阅读全文

posted @ 2025-10-02 09:00 CathyBryant 阅读(14) 评论(0) 推荐(0)

大模型推理（三）：多头注意力机制 multi-head attention

摘要： Transformer的自注意力机制就像一个房间里挤满了人，他们都在互相倾听。每个“token”（词元、单词的片段）都会问：“现在这个房间里谁对我来说最重要？”，并相应地分配权重。最终得到的不仅仅是一条思路，而是一张关联图，一个不断变化的领域，记录着谁在“观察”谁。模型一层一层地构建出更丰富的关联阅读全文

posted @ 2025-10-02 08:47 CathyBryant 阅读(11) 评论(0) 推荐(0)

又有知识…增加了

个人笔记，数学和计算机相关知识

公告