[PaperReading] Efficient Memory Management for Large Language Model Serving with PagedAttention

Efficient Memory Management for Large Language Model Serving with PagedAttention
TL;DR
Motivation
- 现状：GPU显存是瓶颈
- 具体浪费情况
Method
Experiment
总结与思考
相关链接
Related works中值得深挖的工作
资料查询

Efficient Memory Management for Large Language Model Serving with PagedAttention

link
时间：23.09
单位：UC Berkeley, Stanford, UCSD
作者相关工作：
一作：https://scholar.google.com/citations?user=_AT3eUcAAAAJ&hl=en&oi=sra
被引次数：2201
主页：
github
slides

TL;DR

针对大模型部署过程中KV Cache内存浪费进行优化，参考计算操作系统内存管理的虚拟内存与页表管理机制。搭建一个vLLM的serving系统，优势是：a.几乎零内存浪费；b.可以跨requests来做批量化加速，进一步减少内存浪费。实验测试，latency相对于之前方法提升2-4x倍。

Motivation

现状：GPU显存是瓶颈

以一个13B LLM为例子，一个token的KV Cache占用800KB内存，如果生成长度限定在2048tokens，那么将占用1.6GB，再加上不同requests同时请求，KV Cache将占用很大存储。
新型GPU的算力在增长，但显存却在80G止步不前。

具体浪费情况

现有系统(如FasterTransformer和Orca)采用连续内存分配策略，导致三种内存浪费：
- 预留浪费：为未来token预留但尚未使用的空间 (类比vector中用户实际resize大小; 与LLM生成tokens长度上限有关)
- 内部碎片：因预分配最大可能长度而过度分配的空间 (类比vector中capcity)
- 外部碎片：内存分配器(如伙伴分配器)产生的不可用空间 (零散的小内块)