随笔档案「2026年1月21日」：模型推理框架——vllm原理及整体框架 ... - Big-Yellow-J

2026年1月21日

摘要： Page Attention是优化KV-cache内存管理的方法，可解决预留浪费、内部及外部内存碎片化问题，通过将KV-cache划分为固定大小Block，利用Block Table维护逻辑与物理映射，有效管理非连续内存；同时处理Softmax计算中的数值溢出与全局信息问题。vllm框架支持离线与在线调用，初始化过程包括模型加载、KV Cache显存预分配（计算可用内存、num_blocks及总token数）并加载到GPU，提升内存使用效率。阅读全文

posted @ 2026-01-21 10:12 Big-Yellow-J 阅读(50) 评论(0) 推荐(0)

Big-Yellow-J

公告