2025 年 7月 11 日随笔档案 - SIo_2

2025年7月11日

摘要：揭秘vLLM：从KV Cache计算到GQA原理的深度之旅发布日期: 2025年7月11日如果你正在与大语言模型（LLM）打交道，那么你一定对“显存”这个词深感敬畏。在模型推理过程中，除了模型权重本身，KV-Cache 是另一个巨大的显存消耗者。高效管理KV-Cache是提升LLM服务吞吐量、降阅读全文

posted @ 2025-07-11 16:19 SIo_2 阅读(368) 评论(0) 推荐(0)

从KV-Cache到PagedAttention，揭秘LLM推理性能的全部细节

摘要：终极解析：从KV-Cache到PagedAttention，深入vLLM代码揭秘性能黑魔法当我们与ChatGPT、Gemini等大型语言模型（LLM）流畅对话时，我们惊叹于其生成文本的速度和连贯性。但这顺滑体验的背后，是一系列精巧的工程技术在默默支撑，它们解决了巨大的计算和内存挑战。其中，KV-C 阅读全文

posted @ 2025-07-11 15:15 SIo_2 阅读(448) 评论(0) 推荐(0)

sio2zyh

公告