[基础] GPU体系结构

整体架构

物理模块

包含关系为:GPC > TPC > SM > CORE

  • GPC(Graphics Processing Clusters 图形处理簇):GPC负责处理图形渲染和计算任务。每个GPC包含多个TPC,以及与其相关的专用硬件单元和缓存。
  • TPC(Texture Processing Clusters纹理处理簇):TPC负责执行纹理采样和滤波操作,以从纹理数据中获取采样值,并应用于图形渲染中的相应像素。
  • SM(Streaming Multiprocessor流多处理器):SM是是GPU的主要计算单元,负责执行并行计算任务。每个SM都包含多个流多处理器(CUDA Core/Tensor Core/RT Core等 ),可以同时执行多个线程块中的指令。SM通过分配线程、调度指令和管理内存等操作,实现高效的并行计算。
  • CUDA Core, 包含了一个整数运算单元ALU (Integer Arithmetic Logic Unit) 和一个浮点运算单元FPU (Floating Point Unit) 。
  • TensorCore,Tensor Memory Accelerator是主要用于加速AI计算负载中的矩阵乘法和累加(Matrix Multiply-Accumulate, MMA),Tensor Core之所以计算效率高是因为硬件层面实现了4x4x4的矩阵乘法运算。

存储单元

off-chip memory: HBM处于GPU off-chip,也被称为全局存储Global Memory,属于DRAM存储类型。
on-chip memory: L2/L1/L0 Cache处于on-chip,属于SRAM存储类型。 L2 缓存可以被所有 SM 访问,有时也被称为shared memory,速度比全局内存快;L1 缓存用于存储 SM 内的数据,被 SM 内的 CUDA cores 共享,但是跨 SM 之间的 L1 不能相互访问。

引用自FlashAttention

通信方式

机器内通信

共享内存、PCIe、NVLink(直连模式)

B/W表示传输带宽、Latency表示传相同数据量情况下延迟

​​PCIe

  • 必须通过CPU中转,高延迟低带宽
  • 适合CPU-GPU小数据交互(如控制指令)
  • 约64GB/s

NVLink

  • GPU间直连,低延迟高带宽
  • 适合多卡参数同步(如AllReduce)
  • 约900GB/s

机器间通信

TCP/IP网络、RDMA网络(直连模式)、NVSwitch

参考链接

https://developer.nvidia.com/zh-cn/blog/nvidia-nvlink-and-nvidia-nvswitch-supercharge-large-language-model-inference/
https://www.simcentric.com/sc/hong-kong-dedicated-server-sc/nvme-over-rdma-high-performance-storage-networks/

posted @ 2025-06-19 21:29  fariver  阅读(242)  评论(0)    收藏  举报