魔改4090 48G显卡相比A100 40G在模型训练中性能如何

魔改4090 48G是基于原先4090 24G显卡进行增加显存之后的市面上的改装卡，面市之后热度一直挺高的。其基于4090本身强大的算力，补充24G的显存短板，使其能对参数量更大的模型进行训练、微调和推理。对有大上下文、需要更大显存空间的大语言模型推理或深度学习任务，拥有 48 GB 在某些场景下比 24 GB 卡有更大的使用空间。
但因为是魔改卡，所以很多用户也会担心其稳定性，以及魔改之后对之前的算力和性能是否有影响，这里就拿4090 48G对比算力和显存都相近的A100 40G，看看模型训练场景的性能差异。
之前对比过3090、4090和5090的算力差异：
基于ResNet-50模型训练场景下实测3090和4090的性能
 模型训练场景实测5090和4090的算力比较

这里还是使用 ResNet-50 进行模型训练测试。

A100 40G和4090 48G参数对比

两张显卡的参数规格：

	A100 40G	4090 48G
架构	Ampere	Ada Lovelace
CUDA核心数	6,912	16,384
显存容量	40GB HBM2	48 GB GDDR6X
显存带宽	1,555 GB/s	1,008 GB/s
TDP功耗	250W	450W
FP32 算力	19.5 TFLOPS	82.6 TFLOPS
Tensor FP16 算力	312 TFLOPS	330 TFLOPS

显存方面：4090是魔改后翻倍的48G显存，要大于低版本A100的40G显存，但A100 40G用的HBM2显存，带宽可以接近1.6T/s
算力方面：4090在单精度计算上有绝对的优势，半精度Tensor算力两者接近
A100 PCIe版本的功耗做了限制，所以从耗电量上4090会更大

深度学习模型训练测试

在晨涧云AI算力平台分别租用A100 40G和4090 48G的云主机实例。

基于Pytorch框架来训练ResNet-50模型，使用CIFAR-10数据集进行测试对比。

A100 40G测试

4090 48G测试

补充之前测试的4090 24G的结果：

4090 24G测试

可以看到魔改48G显存的4090显卡在算力方面并没有折损，并且48G显存提供了更多的BatchSize样本吞吐空间。

测试结果解释

使用了FP32和FP16混合训练精度，相比之前3090和4090的测试，因为A100 40G和4090 48G有更大的显存，训练批次在原先的基础上增加了384的BatchSize，看训练吞吐量的差异：

精度：FP32 表示使用单精度训练，FP16 表示使用混合精度训练
BatchSize：训练批次大小
Samples/s：每秒样本吞吐量
VRAM (MB)：平均显存使用量
GPU Util (%)：平均GPU利用率

看在GPU使用率比较高的场景下（BatchSize>=256），模型训练样本的吞吐速度比较；单精度训练A100 40G的样本吞吐速度是4090 48G的125%，半精度训练A100 40G的样本吞吐速度是4090 48G的105%。

根据测试结果，4090 48G相对专业计算卡A100 40G的算力差距并不明显，且4090还能兼顾图像、仿真计算等领域，加上48G的显存，在当前AI和高精度计算领域是比较全能的一张卡。但是个人用户购入也需谨慎，毕竟没有维保，稳定性也还没有长时间的市场考验；所以在GPU算力平台租用是个更好的选择。

posted @ 2025-12-17 16:05 AI算力小知识阅读(291) 评论(0) 收藏举报

刷新页面返回顶部