摘要: 魔改4090 48G显卡相比A100 40G在模型训练中性能如何 魔改4090 48G是基于原先4090 24G显卡进行增加显存之后的市面上的改装卡,面市之后热度一直挺高的。其基于4090本身强大的算力,补充24G的显存短板,使其能对参数量更大的模型进行训练、微调和推理。这里就拿4090 48G对比算力和显存都相近的A100 40G,看看模型训练场景的性能差异。模型训练样本的吞吐速度比较:单精度训练A100 40G的样本吞吐速度是4090 48G的125%,半精度训练A100 40G的样本吞吐速度是4090 48G的105%。 阅读全文
posted @ 2025-12-17 16:05 AI算力小知识 阅读(49) 评论(0) 推荐(0)
摘要: 测试不同显卡加速GROMACS分子动力学模拟计算的性能 GPU算力资源在科研、密集计算等专业领域也发挥着至关重要的作用,这里测试下不同显卡在分子动力学模拟计算场景下的性能表现。比较3080、3090、4090三种不同算力的GPU对Gromacs加速的效果。测试结果显示:Gromacs非常依赖CPU,优先选择高性能的CPU,同时需要结合数据集的大小,配置更好的CPU及更多的CPU核数,才能体现出高性能GPU的算力。 阅读全文
posted @ 2025-12-10 17:18 AI算力小知识 阅读(85) 评论(0) 推荐(0)
摘要: ComfyUI的Wan2.2文生视频A100显卡性能表现 使用ComfyUI的Wan2.2文生视频工作流比较A100和4090 48G两张显卡的性能,得益于两张显卡都有比较充足的显存,显存占用比4090 24G有明显提升;显卡资源占用方面,4090 48G有更富足的显存空间,平均占用在38G显存,A100平均显存占用32G,GPU利用率4090 48G也高于A100,这个场景下4090 48G的算力使用更为充沛。生成5s视频,A100平均耗时在53秒左右,4090 48G的平均耗时在50秒左右,4090 48G在文生视频场景的性能略好于是A100。 阅读全文
posted @ 2025-12-02 15:04 AI算力小知识 阅读(32) 评论(0) 推荐(0)
摘要: vLLM实测大模型多卡推理场景显卡性能表现 使用vLLM测试下多卡推理场景下3090和4090两张显卡的性能表现,看下4090是否在多卡高并发场景下更加具备性能优势。选择 Qwen3的模型进行测试,考虑到是两张显卡,每张都是24GB的显存,选择的是FP16精度的qwen3:14B模型进行测试。3090显卡和4090显卡在多卡模型推理过程中的显存和GPU使用率都比较接近,主要看平均耗时及平均吞吐量两个指标。 阅读全文
posted @ 2025-11-26 17:08 AI算力小知识 阅读(77) 评论(0) 推荐(0)
摘要: 模型训练场景实测5090和4090的算力比较 测试下英伟达这款最新的消费级旗舰和上一代RTX 4090在模型训练场景下性能差异多大?5090的32G的容量比4090增加8G,显存带宽有大幅的提升,5090的算力比4090提升近30%。 基于Pytorch框架来训练ResNet-50模型,使用CIFAR-10数据集进行模型训练场景的实测。 阅读全文
posted @ 2025-11-18 16:37 AI算力小知识 阅读(346) 评论(0) 推荐(0)
摘要: 基于ComfyUI的Wan2.2文生视频显卡性能实测 我们就基于ComfyUI的预置工作流模板来测试Wan2.2的模型在3090和4090两张显卡下文生视频的效率。 我们写一个Python脚本来调用ComfyUI的API,通过工作流自动生成视频,并通过多次调用取平均的方式来统计比较3090和4090执行性能的差异,以及对显卡资源的占用情况。 阅读全文
posted @ 2025-11-13 15:14 AI算力小知识 阅读(347) 评论(0) 推荐(0)
摘要: 使用vLLM实测3090和4090的大模型推理性能 使用`vLLM`测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在高并发场景下具备更高的扩展性。 3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,1~8并发度场景下,3090和4090的推理性能均保持稳定;在16并发度下3090开始遇到性能瓶颈,而4090显然较3090有更充足的剩余性能空间。 阅读全文
posted @ 2025-11-06 19:23 AI算力小知识 阅读(120) 评论(0) 推荐(0)
摘要: Ollama和vLLM大模型推理性能对比实测 在部署大模型推理服务的时候,Ollama和vLLM是目前最常见的两个大模型部署工具,这里选择英伟达的RTX 3090比较Ollama和vLLM这两个工具在大语言模型推理场景下性能表现,使用Qwen3模型、控制同样的API推理参数,测试并发调用下的性能表现,来看看Ollama和vLLM分别适用于什么场景? 阅读全文
posted @ 2025-11-05 11:35 AI算力小知识 阅读(78) 评论(0) 推荐(0)
摘要: 3080 20G和3090在大模型推理场景的性能比较 使用Ollama部署Qwen3模型进行推理场景的性能实测,比较3080 20G和3090 24G的差异到底多大? RTX 3080 20G显卡是基于3080 10G魔改的卡,目前市面比较多得被用于小规模参数的大语言模型推理场景,被认为是性价比比3090还高的推理显卡。 对比显卡参数,3080 20G在核心数量、显存、带宽、算力方面基本都是3090 24G的83%左右。 阅读全文
posted @ 2025-10-31 17:55 AI算力小知识 阅读(155) 评论(0) 推荐(0)
摘要: Ollama大模型推理场景下3090和4090性能实测 使用Ollama的快速模型部署,来实测英伟达的RTX 3090和RTX 4090这两张显卡,在大语言模型推理场景中的性能差异。 选择 Qwen3的模型进行测试,考虑到显存都是24GB,分别选择一个FP16精度和一个Q4_K_M量化后的大模型进行测试。 阅读全文
posted @ 2025-10-24 16:39 AI算力小知识 阅读(115) 评论(0) 推荐(0)