摘要: 从字面意义上讲,对于模型生成的每个新词,模型都必须在输入序列和新token上重新运行所有这些层。 这是因为模型的架构不像一个拥有持续状态的流式大脑;它是一个巨大的前馈机器。每个预测都是同一个堆栈在(稍长的)上下文上的一次全新传递。但有两个重要的细微差别: - 缓存。实际上,模型不会从头开始重新计算所 阅读全文
posted @ 2025-10-03 13:39 CathyBryant 阅读(53) 评论(0) 推荐(0)
摘要: 给 e 戴上帽子!我喜欢这个:e^x,把它打扮得漂漂亮亮,准备给我们展示一些精彩的东西。 所以,是的,e^x 的导数等于它本身,这非常特别。你一定会好奇:它是唯一这样的函数吗? 嗯……有点?如果我们要寻找 f'(x) = f(x) 的函数,那么任何形式为 f(x) = Ce^x 的函数都可以,其中 阅读全文
posted @ 2025-10-03 06:57 CathyBryant 阅读(53) 评论(0) 推荐(0)