大模型部署最佳实战


在高并发场景下

同一个模型尺寸在生产部署不同的上下文规格(max-model-len)的集群。

比如 max-model-len= 4096一个集群,max-model-len=8192一个集群。
这样确保集群最大的吞吐量,和GPU利用率。可节约 GPU 可能达到 40%

AI网关代码demo

if input_tokens + max_tokens <= model_4k.max_model_len:
    route("vllm-4k")
elif input_tokens + max_tokens <= model_8k.max_model_len:
    route("vllm-8k")
else:
    reject()   
实例 模型 max-model-len 特点
vllm-4k Qwen1.5-14B 4096 高并发 / 低显存
vllm-8k Qwen1.5-14B 8192 长上下文 / 低并发

案例。 智能客服 400QPS,峰值500QPS,每个query,平均1k token。

做 8bit 量化 + vLLM 正确调优 后,稳定 TPS 提升大致是:

上下文 FP16 稳定 TPS 8bit + 优化后
2048 55k–65k 80k–95k token/s
4096 35k–40k 55k–65k token/s

上下文规格(max-model-len)

2K上下文规格部署 6 张 GPU(SL400S 48GB)
4K上下文规格部署 4 张 GPU(SL400S 48GB)

posted @ 2026-01-16 13:21  向着朝阳  阅读(1)  评论(0)    收藏  举报