摘要:
Page Attention是优化KV-cache内存管理的方法,可解决预留浪费、内部及外部内存碎片化问题,通过将KV-cache划分为固定大小Block,利用Block Table维护逻辑与物理映射,有效管理非连续内存;同时处理Softmax计算中的数值溢出与全局信息问题。vllm框架支持离线与在线调用,初始化过程包括模型加载、KV Cache显存预分配(计算可用内存、num_blocks及总token数)并加载到GPU,提升内存使用效率。 阅读全文
posted @ 2026-01-21 10:12
Big-Yellow-J
阅读(50)
评论(0)
推荐(0)

浙公网安备 33010602011771号