【LLMOps】vllm加速机制-24年9月

原文：https://www.anyscale.com/blog/continuous-batching-llm-inference

回顾

首先了解下LLM推理的最基本机制：

这里面包含几个概念：

大模型推理中遇到的瓶颈实际上有几方面，其中一方面是带宽瓶颈。

GPU的并行能力远远高于CPU，然而大部分情况下，GPU都无法使用饱和。其主要原因就是内存带宽受到瓶颈。因此优化的方式之一是增加推理的batch size。

在传统的深度模型推理中，增加batch size的方式是将一个输入的tensor的维度提升。但是在大模型推理中，由于输入的tensor长度不一致，所以需要将tensor拉齐

posted @ 2024-09-23 19:27 周周周文阳阅读(323) 评论(0) 收藏举报

刷新页面返回顶部