[基础] GPU体系结构

整体架构

物理模块

包含关系为：GPC > TPC > SM > CORE

GPC(Graphics Processing Clusters 图形处理簇)：GPC负责处理图形渲染和计算任务。每个GPC包含多个TPC，以及与其相关的专用硬件单元和缓存。
TPC(Texture Processing Clusters纹理处理簇)：TPC负责执行纹理采样和滤波操作，以从纹理数据中获取采样值，并应用于图形渲染中的相应像素。
SM(Streaming Multiprocessor流多处理器)：SM是是GPU的主要计算单元，负责执行并行计算任务。每个SM都包含多个流多处理器（CUDA Core/Tensor Core/RT Core等），可以同时执行多个线程块中的指令。SM通过分配线程、调度指令和管理内存等操作，实现高效的并行计算。
CUDA Core, 包含了一个整数运算单元ALU (Integer Arithmetic Logic Unit) 和一个浮点运算单元FPU (Floating Point Unit) 。
TensorCore，Tensor Memory Accelerator是主要用于加速AI计算负载中的矩阵乘法和累加(Matrix Multiply-Accumulate, MMA)，Tensor Core之所以计算效率高是因为硬件层面实现了4x4x4的矩阵乘法运算。

存储单元

off-chip memory: HBM处于GPU off-chip，也被称为全局存储Global Memory，属于DRAM存储类型。
on-chip memory: L2/L1/L0 Cache处于on-chip，属于SRAM存储类型。 L2 缓存可以被所有 SM 访问，有时也被称为shared memory，速度比全局内存快；L1 缓存用于存储 SM 内的数据，被 SM 内的 CUDA cores 共享，但是跨 SM 之间的 L1 不能相互访问。

引用自FlashAttention

通信方式

机器内通信

共享内存、PCIe、NVLink（直连模式）

B/W表示传输带宽、Latency表示传相同数据量情况下延迟

PCIe

必须通过CPU中转，高延迟低带宽
适合CPU-GPU小数据交互（如控制指令）
约64GB/s

NVLink

GPU间直连，低延迟高带宽
适合多卡参数同步（如AllReduce）
约900GB/s

机器间通信

TCP/IP网络、RDMA网络（直连模式）、NVSwitch

参考链接

https://developer.nvidia.com/zh-cn/blog/nvidia-nvlink-and-nvidia-nvswitch-supercharge-large-language-model-inference/
https://www.simcentric.com/sc/hong-kong-dedicated-server-sc/nvme-over-rdma-high-performance-storage-networks/

posted @ 2025-06-19 21:29 fariver 阅读(242) 评论(0) 收藏举报

刷新页面返回顶部

fariver