使用vLLM实测3090和4090的大模型推理性能

之前使用Ollama基于顺序调用的场景比较了3090和4090的显卡性能：
Ollama大模型推理场景下3090和4090性能实测

同时，又基于3090显卡比较了Ollama和vLLM在顺序调用和多并发推理场景下的性能差异：
Ollama和vLLM大模型推理性能对比实测

这里再使用vLLM测试下大模型并发推理场景下3090和4090两张显卡的性能表现，看下4090是否在高并发场景下具备更高的扩展性。

在GPU算力租用平台晨涧云分别租用3090显卡和4090显卡的vLLM云容器进行测试。

选择 Qwen3的模型进行测试，考虑到都是24GB的显存，选择的是FP16精度的qwen3:8b模型进行测试。

借助DeepSeek 生成测试脚本，调整脚本控制变量：

然后执行推理性能测试脚本，查看输出结果。

3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近，主要看平均耗时及平均吞吐量两个指标：

Batch Size		RTX 3090	RTX 4090	对比
1	平均耗时(s)	5.44	4.61
1	平均吞吐量(tokens/s)	47.10	55.60	118.0%
4	平均耗时(s)	5.61	4.87
4	平均吞吐量(tokens/s)	182.70	210.40	115.2%
8	平均耗时(s)	5.82	4.94
8	平均吞吐量(tokens/s)	351.90	414.50	117.8%
16	平均耗时(s)	6.42	5.13
16	平均吞吐量(tokens/s)	638.40	798.50	125.1%

1～8并发度场景下，3090和4090的推理性能均保持稳定，4090比3090高17%左右；在16并发度下3090开始遇到性能瓶颈，而4090显然较3090有更充足的剩余性能空间。

posted @ 2025-11-06 19:23 AI算力小知识阅读(127) 评论(0) 收藏举报

刷新页面返回顶部