硬件加速器

NVIDIA GPU

CUDA 核心：通用计算
Tensor 核心：AI 张量运算加速
RT 核心：光线追踪专用加速

RTX PRO 6000

发布日期：2025 年 3 月 18 日
架构：NVIDIA Blackwell
CUDA 核心：24,064
Tensor 核心：752（第 5 代）
RT 核心：188（第 4 代）
显存：96GB GDDR7，带宽 1,597 GB/s
FP32 性能：117 TFLOPs
FP16 性能：126 TFLOPs
多实例 GPU (MIG)：最高 4 MIGs @ 24 GB
功耗：600W
CUDA 计算能力：12.0

NVIDIA H100 GPU

发布日期：2022 年 3 月 22 日
架构：Hopper
CUDA 核心：16,896
Tensor 核心：528
显存：80GB HBM3，带宽 3,352 GB/s
FP32 性能：67 TFLOPs，989 TFLOPs（Tensor 核心）
FP16 性能：1,979 TFLOPs（Tensor 核心）
多实例 GPU (MIG)：最高 7 MIGs @ 10GB
Transformer Engine：专门优化 Transformer 模型的性能，加速自然语言处理任务。
功耗：700W
CUDA 计算能力：9.0

NVIDIA H20 GPU

发布日期：2022 年 3 月 22 日
架构：Hopper
CUDA 核心：16,896
Tensor 核心：528
显存：80GB HBM3，带宽 3,352 GB/s
FP32 性能：67 TFLOPs，989 TFLOPs（Tensor 核心）
FP16 性能：1,979 TFLOPs（Tensor 核心）
多实例 GPU (MIG)：最高 7 MIGs @ 10GB
Transformer Engine：专门优化 Transformer 模型的性能，加速自然语言处理任务。
功耗：700W
CUDA 计算能力：9.0

NVIDIA A100 GPU

发布日期：2020 年 5 月 14 日
架构：Ampere
制程工艺：7nm
CUDA 核心：6912
Tensor 核心：432
显存：40GB 或 80GB HBM2e，带宽 1,935GB/s
FP32 性能：19.5 TFLOPs
TF32 性能：156 TFLOPs
BP16 性能：312 TFLOPs（Tensor 核心）
NVLink 带宽：600 GB/s（双向，使用 NVLink 3.0）
多实例 GPU (MIG)：最高 7 MIGs @ 10GB
功耗：300-400W
CUDA 计算能力：8.0

A800：基于 Ampere 架构，发布于 2022 年。

A800 是英伟达公司为了应对美国政府禁止向中国、俄罗斯销售 A100 和 H100 的禁令而定制的特殊版本。A800 性能和 A100 是相同的，只是功能上有些许差异。

NVIDIA A10 GPU

发布日期：2021 年 4 月 12 日。
显存：24GB GDDR6，带宽 600 GB/s
FP32 性能：31.2 TFLOPs，62.5 TFLOPs（Tensor 核心）
FP16 性能：125 TFLOPs（Tensor 核心）
功耗：150W
CUDA 计算能力：8.6

NVIDIA L40 GPU

发布日期：2022 年 10 月 13 日
架构：Ada Lovelace
显存：48GB GDDR6，带宽 864 GB/s
CUDA 核心：18,176
Tensor 核心：568
FP32 性能：90.5 TFLOPs
FP16 性能：181.05 TFLOPs（Tensor 核心）
功耗：300W
CUDA 计算能力：8.9

NVIDIA L4 GPU

发布日期：2023 年 3 月 21 日
架构：Ada Lovelace
显存：24GB GDDR6，带宽 300 GB/s
FP32 性能：30.3 TFLOPs，120 TFLOPs（Tensor 核心，稀疏模式）
FP16 性能：242 TFLOPs（Tensor 核心，稀疏模式）
功耗：72W
CUDA 计算能力：8.9

NVIDIA T4 GPU

发布日期：2018 年 9 月 12 日
架构：Turing
CUDA 核心：2,560
Tensor 核心：320
显存：16GB GDDR6，带宽 320 GB/s
FP32 性能：8.1 TFLOPs
FP16/FP32 性能：65 TFLOPs
功耗：70W
CUDA 计算能力：7.5

NVIDIA P100 GPU

发布日期：2016 年 4 月 5 日
架构：Pascal
CUDA 核心：3584
显存：16GB HBM2，带宽 732 GB/s
峰值 FP32 性能：9.3 TFLOPs
峰值 FP16 性能：18.7 TFLOPs
功耗：250W
CUDA 计算能力：6.0

参见：

显卡算力排行榜（源自 Lambda.AI）：

参见：Compare GPU Performance on AI Workloads | Runpod

Google TPU

Google TPU 是 Google 对自家 TensorFlow 框架优化的硬件加速器。

Google TPU v6e

发布日期：2024 年
内存：32GB，带宽 1640 GB/s
BF16 性能：918 TFLOPs

Google TPU v5e

发布日期：2023 年
内存：16 GB HBM2，带宽 819 GB/s
BF16 性能：197 TFLOPs

Google TPU v2

发布日期：2017 年
内存：16 GB HBM，带宽 600 GB/s
FP32 性能：45 TFLOPs（8个芯片总计）
BF16 性能：90 TFLOPs
功耗：280W

参见：

接口类型

PCIe

通用的主板扩展总线标准，绝大多数服务器和工作站都支持。
GPU 以标准显卡形式插在 PCIe 插槽，安装灵活，兼容性好。
带宽受 PCIe 代际限制，通常低于 NVLink。
适合通用服务器、开发环境、小型集群。

SXM

NVIDIA 推出的高密度 GPU 模块封装标准（如 SXM2、SXM4、SXM5）。
GPU 以模块形式插在主板专用插槽上，支持更高功耗和更强散热。
通常与 NVLink 高速互联配合，带宽远超 PCIe。
适用于 DGX、HGX 等高端服务器和超算集群。

NVL（NVLink）

NVIDIA 专有的 GPU 互联总线，支持多 GPU 之间的高速通信。
通过 NVLink Bridge 或主板集成，连接多块 GPU，实现更高带宽和更低延迟。
SXM 模块通常原生支持 NVLink，PCIe 卡部分型号也支持。
适合需要多卡协同的 AI 训练、科学计算等场景。

DGX Platform

DGX (Deep GPU Xceleration) 是 NVIDIA 推出的服务器，装有 4 块或 8 块SXM 版本的 GPU。

Introducing NVIDIA DGX A100 | YouTube

HGX Platform

DGX 是完整的 GPU 服务器，而 HGX 只是一个计算模组。

参考：A100 HGX compared to A100 | Reddit

性能测试

lambdal/deeplearning-benchmark

posted @ 2024-09-14 11:53 Undefined443 阅读(232) 评论(0) 收藏举报

刷新页面返回顶部

undefined443