GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40 显卡性能对比
在深度学习模型训练中,数据通常以Tensor的形式存储。因此,在评估显卡性能时,特别需要关注其在处理Tensor运算时的表现,尤其是针对Tensor BF16、Tensor FP16和Tensor FP32等不同精度格式下的计算能力。这些性能指标直接关系到模型的训练速度与效率,对于选择适合特定任务需求的硬件至关重要。具体对比结果如下所示:
TFLOPS 是 "TeraFLOPS" 的缩写,其中 "Tera" 表示万亿(10^12),而 "FLOPS" 代表 "Floating Point Operations Per Second",即每秒浮点运算次数。因此,TFLOPS 就是指每秒万亿次浮点运算。
| 显卡类型 | 显存容量 | 显存带宽 | Tensor BF16/FP16/FP32 性能 | FP16/FP32性能 | 功耗 | 发布日期 |
|---|---|---|---|---|---|---|
| NVIDIA GeForce RTX 4090 | 24GB | 1.01TB/s | 165.2 /165.2/82.58 TFLOPS | 82.58/82.58 TFLOPS | 450W | 2022年9月 |
| NVIDIA GeForce RTX 4090 D | 24GB | 1008GB/s | 约156/156/78 TFLOPS | 73.54/73.54 TFLOPS | 425W | 2023年12月 |
| NVIDIA GeForce RTX 3090 | 24GB | 936.2GB/s | 71/71/35.58 TFLOPS | 35.58/35.58 TFLOPS | 425W | 2020年9月 |
| NVIDIA A10 | 24GB | 600.2GB/s | 125/125/62.5 TFLOPS | 23.44/31.2 TFLOPS | 150W | 2022年2月 |
| NVIDIA A40 PCIe | 48GB | 695.8GB/s | 149.7/149.7/74.8 TFLOPS | 37.42/37.42 TFLOPS | 300W | 2020年10月 |
| NVIDIA A100 PCIe | 80GB | 1935GB/s | 312/312/156 TFLOPS | 77.97/19.49 TFLOPS | 300W | 2021年6月 |
| NVIDIA A100 SXM4 | 80GB | 2039GB/s | 77.97/19.49 TFLOPS | 400W | 2020年11月 | |
| NVIDIA A800 PCIe | 80GB | 2039GB/s | 312/312/156 TFLOPS | 77.97/19.49 TFLOPS | 250W | 2022年11月 |
| NVIDIA A800 SXM4 | 80GB | 2039GB/s | 77.97/19.49 TFLOPS | 400W | 2022年8月 | |
| NVIDIA L20 | 48GB | 864.0GB/s | 119.5/119.5/59.8 TFLOPS | 59.35/59.35 TFLOPS | 275W | 2023年11月 |
| NVIDIA L40 | 48GB | 864.0GB/s | 181.05/181.05/90.5 TFLOPS | 90.52/90.52 TFLOPS | 300W | 2022年10月 |
| NVIDIA H100 SXM5 | 80GB | 1681GB/s | 1979/1979/989 TFLOPS | 267.6/66.91 TFLOPS | 700W | 2023年3月 |
| NVIDIA H100 PCIe | 80GB | 2040GB/s | 1513/1513/756 TFLOPS | 204.9/51.22 TFLOPS | 350W | 2023年3月 |
| [NVIDIA H100 NVL] | 80GB | 2040GB/s | 3958/3958/1979 TFLOPS | 204.9/51.22 TFLOPS | 350W | 2023年3月 |
| NVIDIA H800 SXM5 | 80GB | 1681GB/s | 1979/1979/989 TFLOPS | 237.2/59.30 TFLOPS | 350W | 2023年3月 |
| NVIDIA H800 PCIe | 80GB | 2039GB/s | 1513/1513/756 TFLOPS | 204.9/51.22 TFLOPS | 700W | 2023年3月 |
- 注意: 个别显卡拥有多种通信接口(如SXM4/SXM5和PCIE),通过上述接口都能实现多GPU的互联互通,但两者的能耗、显卡间传输速率以及主板兼容性有所不同,
- 以H100 SXM5和H100 PCIe为例说明:
-
功耗:
- NVIDIA H100 SXM5:最高功耗约为 700W,适合有强大电力供应和散热能力的服务器。
- NVIDIA H100 PCIe:最高功耗约为 350W,比 SXM5 版本低,适合电力和散热资源较为有限的系统。
-
性能差异:
-
H100 SXM5:由于采用了更高效的散热设计和更高功率预算,SXM5 版本通常具有更高的性能。例如,SXM5 版本的功率上限高达 700W,因此在计算能力和吞吐量方面往往更强。
- 内存带宽:SXM5 版本通常支持更高的内存带宽,具体可达到 3.35 TB/s。
- NVLink 支持:SXM5 版本支持 NVLink,这使得多块 GPU 之间可以通过高速互联进行数据交换,带宽可以高达 900GB/s(双向),非常适合需要多 GPU 协同计算的任务。
-
H100 PCIe:由于 PCIe 接口的功率限制,PCIe 版本的功耗通常限制在 350W,因此整体性能可能略低于 SXM5 版本。
- 内存带宽:PCIe 版本的内存带宽相对较低,约为 2 TB/s。
- NVLink 支持:PCIe 版本的 NVLink 通常通过 PCIe 总线进行通信,带宽和互联能力低于 SXM5 的 NVLink。
-
-
- 以H100 SXM5和H100 PCIe为例说明:

浙公网安备 33010602011771号