NVIDIA GPU调研: 访存通路设计

Vertical
从 Volta 引入 SMEM 总共 3 层存储结构。纵向结构上,传统架构仅对用户暴露 2 层存储交互,而随着 Hopper 添加 st.async ,NVIDIA GPU 完成暴露 3 层存储结构的双向通信接口,即 \(2\times C_{3}^{2}=6\) 一共 6 种指令。
| Src\Dst | RF | SMEM | DRAM |
|---|---|---|---|
| RF | x | st. Shared | st. Global |
| SMEM | ld. Shared | x | st. Async (Hopper) |
| DRAM | ld. Global | cp. Async (Ampere) | x |
而 Blackwell 引入 Tensor Memory 添加一层存储结构
| Src\Dst | RF | TMEM | SMEM | DRAM |
|---|---|---|---|---|
| RF | x | tcgen05.ld (Blackwell) |
st. Shared | st. Global |
| TMEM | tcgen05.st (Blackwell) |
x | ||
| SMEM | ld. Shared | tcgen05.cp (Blackwell) |
x | st. Async (Hopper) |
| DRAM | ld. Global | cp. Async (Ampere) | x |
Horizontal
横向结构上,Hopper 支持 Distributed Shared Memory ,在 SM-SM 之间直接交互数据[1]。
Benchmarking and Dissecting the Nvidia Hopper GPU Architecture ↩︎

浙公网安备 33010602011771号