魔改4090 48G显卡相比A100 40G在模型训练中性能如何

魔改4090 48G是基于原先4090 24G显卡进行增加显存之后的市面上的改装卡,面市之后热度一直挺高的。其基于4090本身强大的算力,补充24G的显存短板,使其能对参数量更大的模型进行训练、微调和推理。对有大上下文、需要更大显存空间的大语言模型推理或深度学习任务,拥有 48 GB 在某些场景下比 24 GB 卡有更大的使用空间。
但因为是魔改卡,所以很多用户也会担心其稳定性,以及魔改之后对之前的算力和性能是否有影响,这里就拿4090 48G对比算力和显存都相近的A100 40G,看看模型训练场景的性能差异。
之前对比过3090、4090和5090的算力差异:
基于ResNet-50模型训练场景下实测3090和4090的性能
模型训练场景实测5090和4090的算力比较

这里还是使用 ResNet-50 进行模型训练测试。

A100 40G和4090 48G参数对比

两张显卡的参数规格:

A100 40G 4090 48G
架构 Ampere Ada Lovelace
CUDA核心数 6,912 16,384
显存容量 40GB HBM2 48 GB GDDR6X
显存带宽 1,555 GB/s 1,008 GB/s
TDP功耗 250W 450W
FP32 算力 19.5 TFLOPS 82.6 TFLOPS
Tensor FP16 算力 312 TFLOPS 330 TFLOPS
  • 显存方面:4090是魔改后翻倍的48G显存,要大于低版本A100的40G显存,但A100 40G用的HBM2显存,带宽可以接近1.6T/s

  • 算力方面:4090在单精度计算上有绝对的优势,半精度Tensor算力两者接近

  • A100 PCIe版本的功耗做了限制,所以从耗电量上4090会更大

深度学习模型训练测试

晨涧云AI算力平台 分别租用A100 40G和4090 48G的云主机实例。

基于Pytorch框架来训练ResNet-50模型,使用CIFAR-10数据集进行测试对比。

A100 40G测试

ResNet50AI性能测试-A100_40G

4090 48G测试

ResNet50AI性能测试-4090_48G

补充之前测试的4090 24G的结果:

4090 24G测试

ResNet50AI性能测试-4090-1

可以看到魔改48G显存的4090显卡在算力方面并没有折损,并且48G显存提供了更多的BatchSize样本吞吐空间

测试结果解释

使用了FP32和FP16混合训练精度,相比之前3090和4090的测试,因为A100 40G和4090 48G有更大的显存,训练批次在原先的基础上增加了384的BatchSize,看训练吞吐量的差异:

  • 精度FP32 表示使用单精度训练,FP16 表示使用混合精度训练

  • BatchSize:训练批次大小

  • Samples/s:每秒样本吞吐量

  • VRAM (MB):平均显存使用量

  • GPU Util (%):平均GPU利用率

看在GPU使用率比较高的场景下(BatchSize>=256),模型训练样本的吞吐速度比较;单精度训练A100 40G的样本吞吐速度是4090 48G的125%,半精度训练A100 40G的样本吞吐速度是4090 48G的105%

根据测试结果,4090 48G相对专业计算卡A100 40G的算力差距并不明显,且4090还能兼顾图像、仿真计算等领域,加上48G的显存,在当前AI和高精度计算领域是比较全能的一张卡。但是个人用户购入也需谨慎,毕竟没有维保,稳定性也还没有长时间的市场考验;所以在GPU算力平台租用是个更好的选择。

posted @ 2025-12-17 16:05  AI算力小知识  阅读(46)  评论(0)    收藏  举报