GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40 显卡性能对比

在深度学习模型训练中,数据通常以Tensor的形式存储。因此,在评估显卡性能时,特别需要关注其在处理Tensor运算时的表现,尤其是针对Tensor BF16、Tensor FP16和Tensor FP32等不同精度格式下的计算能力。这些性能指标直接关系到模型的训练速度与效率,对于选择适合特定任务需求的硬件至关重要。具体对比结果如下所示:

TFLOPS 是 "TeraFLOPS" 的缩写,其中 "Tera" 表示万亿(10^12),而 "FLOPS" 代表 "Floating Point Operations Per Second",即每秒浮点运算次数。因此,TFLOPS 就是指每秒万亿次浮点运算。

显卡类型显存容量显存带宽Tensor BF16/FP16/FP32 性能FP16/FP32性能功耗发布日期
NVIDIA GeForce RTX 409024GB1.01TB/s165.2 /165.2/82.58 TFLOPS82.58/82.58 TFLOPS450W2022年9月
NVIDIA GeForce RTX 4090 D24GB1008GB/s约156/156/78 TFLOPS73.54/73.54 TFLOPS425W2023年12月
NVIDIA GeForce RTX 309024GB936.2GB/s71/71/35.58 TFLOPS35.58/35.58 TFLOPS425W2020年9月
NVIDIA A1024GB600.2GB/s125/125/62.5 TFLOPS23.44/31.2 TFLOPS150W2022年2月
NVIDIA A40 PCIe48GB695.8GB/s149.7/149.7/74.8 TFLOPS37.42/37.42 TFLOPS300W2020年10月
NVIDIA A100 PCIe80GB1935GB/s312/312/156 TFLOPS77.97/19.49 TFLOPS300W2021年6月
NVIDIA A100 SXM480GB2039GB/s77.97/19.49 TFLOPS400W2020年11月
NVIDIA A800 PCIe80GB2039GB/s312/312/156 TFLOPS77.97/19.49 TFLOPS250W2022年11月
NVIDIA A800 SXM480GB2039GB/s77.97/19.49 TFLOPS400W2022年8月
NVIDIA L2048GB864.0GB/s119.5/119.5/59.8 TFLOPS59.35/59.35 TFLOPS275W2023年11月
NVIDIA L4048GB864.0GB/s181.05/181.05/90.5 TFLOPS90.52/90.52 TFLOPS300W2022年10月
NVIDIA H100 SXM580GB1681GB/s1979/1979/989 TFLOPS267.6/66.91 TFLOPS700W2023年3月
NVIDIA H100 PCIe80GB2040GB/s1513/1513/756 TFLOPS204.9/51.22 TFLOPS350W2023年3月
[NVIDIA H100 NVL]80GB2040GB/s3958/3958/1979 TFLOPS204.9/51.22 TFLOPS350W2023年3月
NVIDIA H800 SXM580GB1681GB/s1979/1979/989 TFLOPS237.2/59.30 TFLOPS350W2023年3月
NVIDIA H800 PCIe80GB2039GB/s1513/1513/756 TFLOPS204.9/51.22 TFLOPS700W2023年3月
  • 注意: 个别显卡拥有多种通信接口(如SXM4/SXM5和PCIE),通过上述接口都能实现多GPU的互联互通,但两者的能耗、显卡间传输速率以及主板兼容性有所不同,
    • 以H100 SXM5和H100 PCIe为例说明:
      • 功耗:

        • NVIDIA H100 SXM5:最高功耗约为 700W,适合有强大电力供应和散热能力的服务器。
        • NVIDIA H100 PCIe:最高功耗约为 350W,比 SXM5 版本低,适合电力和散热资源较为有限的系统。
      • 性能差异:

        • H100 SXM5:由于采用了更高效的散热设计和更高功率预算,SXM5 版本通常具有更高的性能。例如,SXM5 版本的功率上限高达 700W,因此在计算能力和吞吐量方面往往更强。

          • 内存带宽:SXM5 版本通常支持更高的内存带宽,具体可达到 3.35 TB/s
          • NVLink 支持:SXM5 版本支持 NVLink,这使得多块 GPU 之间可以通过高速互联进行数据交换,带宽可以高达 900GB/s(双向),非常适合需要多 GPU 协同计算的任务。
        • H100 PCIe:由于 PCIe 接口的功率限制,PCIe 版本的功耗通常限制在 350W,因此整体性能可能略低于 SXM5 版本。

          • 内存带宽:PCIe 版本的内存带宽相对较低,约为 2 TB/s
          • NVLink 支持:PCIe 版本的 NVLink 通常通过 PCIe 总线进行通信,带宽和互联能力低于 SXM5 的 NVLink。

参考文章

  1. 世上最全NVDIA GPU参数列表: V100, A100, A800,H100,3090,4090, A40, A30等性能参数 - 知乎 (zhihu.com)
  2. 2023年最新最全的显卡深度学习AI算法算力排行(包括单精度FP32和半精度FP16的对比) - 知乎 (zhihu.com)
  3. AutoDL帮助文档
  4. AutoDL算力云 | 弹性、好用、省钱。租GPU就上AutoDL
posted @ 2024-10-22 16:54  wuhaoliu  阅读(2092)  评论(0)    收藏  举报  来源