【LLMOps】vllm加速机制-24年9月

原文:https://www.anyscale.com/blog/continuous-batching-llm-inference

 回顾

首先了解下LLM推理的最基本机制:

  1. 在发起请求时,输入是一组token的序列。一般称该请求为prefix或prompt
  2. LLM推理输出一系列的token,直到获得一个特殊的token值或者到达设置最大长度才会停止推理产生新的token。

这里面包含几个概念:

  1. 首次输入prompt,推理的过程称之为prefill;后续的过程称之为自回归过程,即由前N个token推理出第N+1个token
  2. prefill阶段是计算密集型,而自回归过程是访存密集型
  3. GPU的内存开销包括:加载模型所需的内存 + 生成token所需的内存

 问题发现

大模型推理中遇到的瓶颈实际上有几方面,其中一方面是带宽瓶颈。

GPU的并行能力远远高于CPU,然而大部分情况下,GPU都无法使用饱和。其主要原因就是内存带宽受到瓶颈。因此优化的方式之一是增加推理的batch size。

在传统的深度模型推理中,增加batch size的方式是将一个输入的tensor的维度提升。但是在大模型推理中,由于输入的tensor长度不一致,所以需要将tensor拉齐

posted @ 2024-09-23 19:27  周周周文阳  阅读(323)  评论(0)    收藏  举报