大模型部署最佳实战
在高并发场景下
同一个模型尺寸在生产部署不同的上下文规格(max-model-len)的集群。
比如 max-model-len= 4096一个集群,max-model-len=8192一个集群。
这样确保集群最大的吞吐量,和GPU利用率。可节约 GPU 可能达到 40%
AI网关代码demo
if input_tokens + max_tokens <= model_4k.max_model_len:
route("vllm-4k")
elif input_tokens + max_tokens <= model_8k.max_model_len:
route("vllm-8k")
else:
reject()
| 实例 | 模型 | max-model-len | 特点 |
|---|---|---|---|
| vllm-4k | Qwen1.5-14B | 4096 | 高并发 / 低显存 |
| vllm-8k | Qwen1.5-14B | 8192 | 长上下文 / 低并发 |
案例。 智能客服 400QPS,峰值500QPS,每个query,平均1k token。
做 8bit 量化 + vLLM 正确调优 后,稳定 TPS 提升大致是:
| 上下文 | FP16 稳定 TPS | 8bit + 优化后 |
|---|---|---|
| 2048 | 55k–65k | 80k–95k token/s |
| 4096 | 35k–40k | 55k–65k token/s |
上下文规格(max-model-len)
2K上下文规格部署 6 张 GPU(SL400S 48GB)
4K上下文规格部署 4 张 GPU(SL400S 48GB)

浙公网安备 33010602011771号