【LLMOps】vllm加速机制-24年9月
原文:https://www.anyscale.com/blog/continuous-batching-llm-inference
回顾
首先了解下LLM推理的最基本机制:
- 在发起请求时,输入是一组token的序列。一般称该请求为prefix或prompt
- LLM推理输出一系列的token,直到获得一个特殊的token值或者到达设置最大长度才会停止推理产生新的token。
这里面包含几个概念:
- 首次输入prompt,推理的过程称之为prefill;后续的过程称之为自回归过程,即由前N个token推理出第N+1个token
- prefill阶段是计算密集型,而自回归过程是访存密集型
- GPU的内存开销包括:加载模型所需的内存 + 生成token所需的内存
问题发现
大模型推理中遇到的瓶颈实际上有几方面,其中一方面是带宽瓶颈。
GPU的并行能力远远高于CPU,然而大部分情况下,GPU都无法使用饱和。其主要原因就是内存带宽受到瓶颈。因此优化的方式之一是增加推理的batch size。
在传统的深度模型推理中,增加batch size的方式是将一个输入的tensor的维度提升。但是在大模型推理中,由于输入的tensor长度不一致,所以需要将tensor拉齐
 
                    
                
 
 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号