2025 年 10月 3 日随笔档案 - CathyBryant

2025年10月3日

摘要：从字面意义上讲，对于模型生成的每个新词，模型都必须在输入序列和新token上重新运行所有这些层。这是因为模型的架构不像一个拥有持续状态的流式大脑；它是一个巨大的前馈机器。每个预测都是同一个堆栈在（稍长的）上下文上的一次全新传递。但有两个重要的细微差别： - 缓存。实际上，模型不会从头开始重新计算所阅读全文

posted @ 2025-10-03 13:39 CathyBryant 阅读(53) 评论(0) 推荐(0)

微积分直觉（九）：e^x与指数函数家族

摘要：给 e 戴上帽子！我喜欢这个：e^x，把它打扮得漂漂亮亮，准备给我们展示一些精彩的东西。所以，是的，e^x 的导数等于它本身，这非常特别。你一定会好奇：它是唯一这样的函数吗？嗯……有点？如果我们要寻找 f'(x) = f(x) 的函数，那么任何形式为 f(x) = Ce^x 的函数都可以，其中阅读全文

posted @ 2025-10-03 06:57 CathyBryant 阅读(53) 评论(0) 推荐(0)

又有知识…增加了

个人笔记，数学和计算机相关知识

公告