vLLM优化项
目录
好的,我给你整理一份 vLLM 推理加速优化清单,在原有表格基础上增加 “优先级 / 必做场景” 列,方便工程判断每个优化手段是否必须做以及在什么场景下可选。
| 优化名称 | 原理 / 作用 | 优先级 / 必做场景 |
|---|---|---|
| KV Cache | Transformer 注意力的 Key/Value 缓存。避免重复计算历史上下文 attention,加速长序列生成。 | 必做。多轮对话或流式生成场景必用。 |
| 8-bit / 4-bit 量化 | 将模型权重从 16/32 位浮点压缩为低精度整数(INT8/INT4),减少显存占用,加快算力利用。 | 必做。大模型部署(13B+)或显存受限场景。 |
| Dynamic Batching | 将多个小批量请求动态合并成一个 batch 进行并行推理,提高 GPU 并行度和吞吐量。 | 高优先级。高 QPS(>100–200)场景下强烈建议;低 QPS 可选。 |
| Sequence Parallelism / Chunking | 长序列拆分为多个 chunk,分批计算 attention,减少显存峰值,同时可结合 KV Cache 加速。 | 按需。超长上下文 (>模型最大 context) 或生成超长文本时使用。 |
| Prefill / Streaming | 将生成拆成 prefill(处理 prompt)+ decode(逐 token 生成),复用缓存并减少重复计算。 | 必做。多轮对话/流式生成场景,提升吞吐和实时性。 |
| Flash Attention / Triton Kernels | 高效 attention 算子,减少显存峰值,提高 GPU 推理速度。 | 高优先级。大模型(>13B)或长序列场景建议使用,可提升 20–50% 吞吐。 |
| Tensor Parallel / Model Sharding | 模型层或张量拆分到多 GPU 并行推理,提高吞吐,适合大模型部署。 | 按需。单 GPU 显存无法容纳模型时必做;多 GPU 场景提升吞吐可选。 |
| Attention Masking Optimization | 对 padding token 或已完成序列部分不计算 attention,节省算力。 | 高优先级。长序列或 batch padding 多时效果明显。 |
| Early Stopping / EOS Prediction | 对已生成结束 token 的请求提前停止解码,避免无效计算。 | 按需。用户输入短文本或可预测结束 token 时提高效率。 |
| Cache KV Reuse Across Agents | 对不同 Agent 间相似或重复 prompt 使用 KV Cache 复用,减少重复计算。 | 高优先级。多 Agent / 多重复意图场景,提升整体吞吐。 |
| Low-rank Adapter / LoRA-inference | LoRA 微调时只加载低秩权重进行推理,减少显存占用,配合 8bit 效果更好。 | 按需。模型微调后推理显存受限时使用,可节省显存。 |
| Mixed Precision (FP16/BF16) | 使用半精度或 bfloat16,减少显存占用,同时不明显影响精度。 | 高优先级。大模型推理必备,可配合量化或独立使用。 |
| GPU Memory Offload | 超大模型时,将部分权重临时放到 CPU / NVMe,再按需加载到 GPU,解决显存瓶颈。 | 按需。单机显存无法容纳模型时使用,通常用于 >30B 模型。 |
| Sliding Window / Chunked Attention (Flip Window) | 超长序列推理,超过模型最大上下文长度时,按窗口分块计算,KV Cache 复用,保证上下文连续。 | 按需。超长上下文或 RAG + 多轮追问场景使用;普通客服对话通常不必。 |

浙公网安备 33010602011771号