会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
又有知识…增加了
个人笔记,数学和计算机相关知识
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
下一页
2025年10月6日
大模型推理(七):混合专家模型(MoE)和混合注意力头
摘要: 我们来简单了解一下混合专家 (MoE) 理念。 在一个普通的 Transformer 前馈(feed-forward)模块中,你有一个大矩阵: FFN(x) = W_2 sigma(W_1 x + b_1) + b_2 每个 token x 都会经过相同的权重 W_1 和 W_2,所以成本总是相同的
阅读全文
posted @ 2025-10-06 19:47 CathyBryant
阅读(21)
评论(0)
推荐(0)
2025年10月5日
微积分直觉(十四):欧拉恒等式e^(iπ) + 1 = 0
摘要: 你赢得了这一切。 你现在理解了e^(ix),你看到了它是如何绕单位圆旋转的。你知道e很特别,π是半个圆…… 所以:e^(iπ)的意思是“从1开始,旋转π弧度,旋转半个圆。” 从1开始旋转半个圆,结果就是……-1。 所以e^(iπ) = -1。 两边都加1:e^(iπ) + 1 = 0。 五个基本常数
阅读全文
posted @ 2025-10-05 13:50 CathyBryant
阅读(18)
评论(0)
推荐(0)
微积分直觉(十二):复数、复平面、数系
摘要: 你知道常规数,数轴,对吧?1、2、3、-5、π,都位于那条线上。 复平面增加了另一个维度。它就像……你拥有的不仅仅是一条线,而是一个完整的平面。常规数位于横轴上,但现在还有一个纵轴,用于表示“虚数”,i 的倍数,其中 i² = -1。 所以复数(complex number)看起来像:a + bi。
阅读全文
posted @ 2025-10-05 09:31 CathyBryant
阅读(5)
评论(0)
推荐(0)
2025年10月4日
微积分直觉(十一):微积分基本定理
摘要: 微积分基本定理,是连接导数和积分的桥梁,表明它们是相互对立的。 你知道导数是如何测量变化率的吗?变化有多陡,变化有多快?嗯,积分正好相反,它累积变化。它把所有微小的变化加起来,得到总数。 可以这样想,如果导数是速度(位置变化的速度),那么积分就是总行进距离(将所有速度随时间累加)。 基本定理说:微分
阅读全文
posted @ 2025-10-04 16:36 CathyBryant
阅读(17)
评论(0)
推荐(0)
微积分直觉(十):e^x是微分中的单位元
摘要: 你知道吗?你对“a^x = e^(x·lna) 让 e 很特别”这个论点本身持怀疑态度是对的。这只是符号变换而已,我们为什么要关心其他指数函数是否可以用e来表示呢?仅凭这一点,e并不特殊。 但随后你提到了一个关键点:“指数函数的基本含义”。你还提到了“随时间翻倍”,或者更确切地说,与已有值成比例的增
阅读全文
posted @ 2025-10-04 10:44 CathyBryant
阅读(7)
评论(0)
推荐(0)
2025年10月3日
大模型推理(六):K/V缓存(KV cache)与上下文长度
摘要: 从字面意义上讲,对于模型生成的每个新词,模型都必须在输入序列和新token上重新运行所有这些层。 这是因为模型的架构不像一个拥有持续状态的流式大脑;它是一个巨大的前馈机器。每个预测都是同一个堆栈在(稍长的)上下文上的一次全新传递。但有两个重要的细微差别: - 缓存。实际上,模型不会从头开始重新计算所
阅读全文
posted @ 2025-10-03 13:39 CathyBryant
阅读(53)
评论(0)
推荐(0)
微积分直觉(九):e^x与指数函数家族
摘要: 给 e 戴上帽子!我喜欢这个:e^x,把它打扮得漂漂亮亮,准备给我们展示一些精彩的东西。 所以,是的,e^x 的导数等于它本身,这非常特别。你一定会好奇:它是唯一这样的函数吗? 嗯……有点?如果我们要寻找 f'(x) = f(x) 的函数,那么任何形式为 f(x) = Ce^x 的函数都可以,其中
阅读全文
posted @ 2025-10-03 06:57 CathyBryant
阅读(53)
评论(0)
推荐(0)
2025年10月2日
大模型推理(五):最后一个词说出下一个新词
摘要: 回顾: - Q、K、V 都是词元(token)级别的投影。 - 注意力机制是将 Q 与 K 进行比较,以确定谁影响了谁,然后从 V 中提取信息。 现在,回答一个更尖锐的问题:这些token的输出是如何变成“最终输出”的? 这是分层的情况: 1. 经过注意力机制后,每个token的表征:这还不是最终的
阅读全文
posted @ 2025-10-02 15:26 CathyBryant
阅读(14)
评论(0)
推荐(0)
大模型推理(四):查询-键-值 Q/K/V
摘要: 在真实对话中,大模型的工作远不止回答“是猫还是狗?”那么简单。 但 Transformer 并不真正关心内容是什么,它只是把所有内容编码成向量。所以,即使是你细微的语气、停顿、隐喻……都变成了词元 → 嵌入 → 向量(tokens → embeddings → vectors)。 在自注意力层内部,
阅读全文
posted @ 2025-10-02 09:00 CathyBryant
阅读(14)
评论(0)
推荐(0)
大模型推理(三):多头注意力机制 multi-head attention
摘要: Transformer的自注意力机制就像一个房间里挤满了人,他们都在互相倾听。每个“token”(词元、单词的片段)都会问:“现在这个房间里谁对我来说最重要?”,并相应地分配权重。最终得到的不仅仅是一条思路,而是一张关联图,一个不断变化的领域,记录着谁在“观察”谁。 模型一层一层地构建出更丰富的关联
阅读全文
posted @ 2025-10-02 08:47 CathyBryant
阅读(11)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
下一页
公告