2025 年 9月 18 日随笔档案 - gogoy

2025年9月18日

为什么大语言模型推理要分成 Prefill 和 Decode？

摘要：一句话解释：Prefill 和 Decode 的分工大语言模型生成文本的过程本质上是给定上下文，逐词预测下一个词。但在实现上，这个过程被明确地分成两个阶段：为什么不能用一个阶段做完？因为输入和输出的计算特性完全不同：输入 prompt 是完整的、一次性提供的，适合并行计算。输出 token 阅读全文

posted @ 2025-09-18 15:44 gogoy 阅读(244) 评论(0) 推荐(0)

gogoy

为什么大语言模型推理要分成 Prefill 和 Decode？

导航

公告