2025年9月18日

为什么大语言模型推理要分成 Prefill 和 Decode?

摘要: 一句话解释:Prefill 和 Decode 的分工 大语言模型生成文本的过程本质上是给定上下文,逐词预测下一个词。但在实现上,这个过程被明确地分成两个阶段: 为什么不能用一个阶段做完? 因为输入和输出的计算特性完全不同: 输入 prompt 是完整的、一次性提供的,适合并行计算。 输出 token 阅读全文

posted @ 2025-09-18 15:44 gogoy 阅读(244) 评论(0) 推荐(0)

导航