从零构建 Mini-vLLM：KV-Cache、动态批处理与分布式推理全流程

HuggingFace 的

是个黑盒，而且这个黑盒藏了一个代价很高的问题，每一个解码步骤它都从头开始对整个 prompt 做一次完整的注意力计算。每一个 token 都是如此。注意力的开销以 O(N²) 的速度随序列长度增长，在小规模下完全察觉不到，一旦上了真实负载就会出现问题。

Mini-vLLM是一个从零开始写的推理引擎，包含动态批处理、KV-cache 优化、完整的 Prometheus/Grafana 可观测性栈、gRPC 支持，以及分布式多 worker 架构，全部通过 Docker 容器化。

我们的目标不是为了造轮子，而是要知道轮子是如何工作的。

posted @ 2026-04-04 21:09 deephub 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

deephub