为什么大语言模型推理要分成 Prefill 和 Decode？

一句话解释：Prefill 和 Decode 的分工

大语言模型生成文本的过程本质上是给定上下文，逐词预测下一个词。
但在实现上，这个过程被明确地分成两个阶段：

因为输入和输出的计算特性完全不同：

这种“数据形态差异”导致我们不得不把它们拆成两个阶段，并用不同方式处理。

原文链接：https://blog.csdn.net/keeppractice/article/details/147012874

大模型系列：深度解析 Prefill-Decode 分离式部署架构 https://zhuanlan.zhihu.com/p/1918334902492963669

为什么LLM推理要分成Prefill和Decode两个阶段？ https://zhuanlan.zhihu.com/p/1925514980343677032

posted on 2025-09-18 15:44 gogoy 阅读(92) 评论(0) 收藏举报

刷新页面返回顶部