摘要:
我们就基于ComfyUI的预置工作流模板来测试Wan2.2的模型在3090和4090两张显卡下文生视频的效率。
我们写一个Python脚本来调用ComfyUI的API,通过工作流自动生成视频,并通过多次调用取平均的方式来统计比较3090和4090执行性能的差异,以及对显卡资源的占用情况。 阅读全文
我们就基于ComfyUI的预置工作流模板来测试Wan2.2的模型在3090和4090两张显卡下文生视频的效率。
我们写一个Python脚本来调用ComfyUI的API,通过工作流自动生成视频,并通过多次调用取平均的方式来统计比较3090和4090执行性能的差异,以及对显卡资源的占用情况。 阅读全文
posted @ 2025-11-13 15:14
AI算力小知识
阅读(94)
评论(0)
推荐(0)
摘要:
使用`vLLM`测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在高并发场景下具备更高的扩展性。
3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,1~8并发度场景下,3090和4090的推理性能均保持稳定;在16并发度下3090开始遇到性能瓶颈,而4090显然较3090有更充足的剩余性能空间。 阅读全文
使用`vLLM`测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在高并发场景下具备更高的扩展性。
3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,1~8并发度场景下,3090和4090的推理性能均保持稳定;在16并发度下3090开始遇到性能瓶颈,而4090显然较3090有更充足的剩余性能空间。 阅读全文
posted @ 2025-11-06 19:23
AI算力小知识
阅读(48)
评论(0)
推荐(0)
摘要:
在部署大模型推理服务的时候,Ollama和vLLM是目前最常见的两个大模型部署工具,这里选择英伟达的RTX 3090比较Ollama和vLLM这两个工具在大语言模型推理场景下性能表现,使用Qwen3模型、控制同样的API推理参数,测试并发调用下的性能表现,来看看Ollama和vLLM分别适用于什么场景? 阅读全文
在部署大模型推理服务的时候,Ollama和vLLM是目前最常见的两个大模型部署工具,这里选择英伟达的RTX 3090比较Ollama和vLLM这两个工具在大语言模型推理场景下性能表现,使用Qwen3模型、控制同样的API推理参数,测试并发调用下的性能表现,来看看Ollama和vLLM分别适用于什么场景? 阅读全文
posted @ 2025-11-05 11:35
AI算力小知识
阅读(35)
评论(0)
推荐(0)
使用Ollama部署Qwen3模型进行推理场景的性能实测,比较3080 20G和3090 24G的差异到底多大?
RTX 3080 20G显卡是基于3080 10G魔改的卡,目前市面比较多得被用于小规模参数的大语言模型推理场景,被认为是性价比比3090还高的推理显卡。
对比显卡参数,3080 20G在核心数量、显存、带宽、算力方面基本都是3090 24G的83%左右。
使用Ollama的快速模型部署,来实测英伟达的RTX 3090和RTX 4090这两张显卡,在大语言模型推理场景中的性能差异。
选择 Qwen3的模型进行测试,考虑到显存都是24GB,分别选择一个FP16精度和一个Q4_K_M量化后的大模型进行测试。
选择了英伟达的RTX 3090和RTX 4090两张显卡,在实际的深度学习场景进行性能实测,基于ResNet-50模型训练比较下被称为「上一代卡皇」的 3090 和「当前消费级主力」的 4090 的实际性能到底差多少?
AI时代大模型的应用已经渗透到日常的角角落落,同时算力变成了普遍的需求,在购买显卡或者租用GPU云算力的时候,如何选择合适的显卡呢,需要关注哪些参数?
本文以最常见的英伟达显卡为例,来说说显卡的各种参数是如何影响算力性能的。
浙公网安备 33010602011771号