NVIDIA GPU调研: 访存通路设计

Extra/Images/IMG_20251117212827914.png

Vertical

从 Volta 引入 SMEM 总共 3 层存储结构。纵向结构上,传统架构仅对用户暴露 2 层存储交互,而随着 Hopper 添加 st.async ,NVIDIA GPU 完成暴露 3 层存储结构的双向通信接口,即 \(2\times C_{3}^{2}=6\) 一共 6 种指令。

Src\Dst RF SMEM DRAM
RF x st. Shared st. Global
SMEM ld. Shared x st. Async (Hopper)
DRAM ld. Global cp. Async (Ampere) x

而 Blackwell 引入 Tensor Memory 添加一层存储结构

Src\Dst RF TMEM SMEM DRAM
RF x tcgen05.ld (Blackwell) st. Shared st. Global
TMEM tcgen05.st (Blackwell) x
SMEM ld. Shared tcgen05.cp (Blackwell) x st. Async (Hopper)
DRAM ld. Global cp. Async (Ampere) x

Horizontal

横向结构上,Hopper 支持 Distributed Shared Memory ,在 SM-SM 之间直接交互数据[1]


  1. Benchmarking and Dissecting the Nvidia Hopper GPU Architecture ↩︎

posted @ 2025-09-14 16:30  DevilXXL  阅读(31)  评论(0)    收藏  举报