11 2025 档案
摘要:
使用vLLM测试下多卡推理场景下3090和4090两张显卡的性能表现,看下4090是否在多卡高并发场景下更加具备性能优势。选择 Qwen3的模型进行测试,考虑到是两张显卡,每张都是24GB的显存,选择的是FP16精度的qwen3:14B模型进行测试。3090显卡和4090显卡在多卡模型推理过程中的显存和GPU使用率都比较接近,主要看平均耗时及平均吞吐量两个指标。
阅读全文
使用vLLM测试下多卡推理场景下3090和4090两张显卡的性能表现,看下4090是否在多卡高并发场景下更加具备性能优势。选择 Qwen3的模型进行测试,考虑到是两张显卡,每张都是24GB的显存,选择的是FP16精度的qwen3:14B模型进行测试。3090显卡和4090显卡在多卡模型推理过程中的显存和GPU使用率都比较接近,主要看平均耗时及平均吞吐量两个指标。
阅读全文
摘要:
测试下英伟达这款最新的消费级旗舰和上一代RTX 4090在模型训练场景下性能差异多大?5090的32G的容量比4090增加8G,显存带宽有大幅的提升,5090的算力比4090提升近30%。
基于Pytorch框架来训练ResNet-50模型,使用CIFAR-10数据集进行模型训练场景的实测。
阅读全文
测试下英伟达这款最新的消费级旗舰和上一代RTX 4090在模型训练场景下性能差异多大?5090的32G的容量比4090增加8G,显存带宽有大幅的提升,5090的算力比4090提升近30%。
基于Pytorch框架来训练ResNet-50模型,使用CIFAR-10数据集进行模型训练场景的实测。
阅读全文
摘要:
我们就基于ComfyUI的预置工作流模板来测试Wan2.2的模型在3090和4090两张显卡下文生视频的效率。
我们写一个Python脚本来调用ComfyUI的API,通过工作流自动生成视频,并通过多次调用取平均的方式来统计比较3090和4090执行性能的差异,以及对显卡资源的占用情况。
阅读全文
我们就基于ComfyUI的预置工作流模板来测试Wan2.2的模型在3090和4090两张显卡下文生视频的效率。
我们写一个Python脚本来调用ComfyUI的API,通过工作流自动生成视频,并通过多次调用取平均的方式来统计比较3090和4090执行性能的差异,以及对显卡资源的占用情况。
阅读全文
摘要:
使用`vLLM`测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在高并发场景下具备更高的扩展性。
3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,1~8并发度场景下,3090和4090的推理性能均保持稳定;在16并发度下3090开始遇到性能瓶颈,而4090显然较3090有更充足的剩余性能空间。
阅读全文
使用`vLLM`测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在高并发场景下具备更高的扩展性。
3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,1~8并发度场景下,3090和4090的推理性能均保持稳定;在16并发度下3090开始遇到性能瓶颈,而4090显然较3090有更充足的剩余性能空间。
阅读全文
摘要:
在部署大模型推理服务的时候,Ollama和vLLM是目前最常见的两个大模型部署工具,这里选择英伟达的RTX 3090比较Ollama和vLLM这两个工具在大语言模型推理场景下性能表现,使用Qwen3模型、控制同样的API推理参数,测试并发调用下的性能表现,来看看Ollama和vLLM分别适用于什么场景?
阅读全文
在部署大模型推理服务的时候,Ollama和vLLM是目前最常见的两个大模型部署工具,这里选择英伟达的RTX 3090比较Ollama和vLLM这两个工具在大语言模型推理场景下性能表现,使用Qwen3模型、控制同样的API推理参数,测试并发调用下的性能表现,来看看Ollama和vLLM分别适用于什么场景?
阅读全文
浙公网安备 33010602011771号