[基础] GPU体系结构
整体架构

物理模块
包含关系为:GPC > TPC > SM > CORE
- GPC(Graphics Processing Clusters 图形处理簇):GPC负责处理图形渲染和计算任务。每个GPC包含多个TPC,以及与其相关的专用硬件单元和缓存。
- TPC(Texture Processing Clusters纹理处理簇):TPC负责执行纹理采样和滤波操作,以从纹理数据中获取采样值,并应用于图形渲染中的相应像素。
- SM(Streaming Multiprocessor流多处理器):SM是是GPU的主要计算单元,负责执行并行计算任务。每个SM都包含多个流多处理器(CUDA Core/Tensor Core/RT Core等 ),可以同时执行多个线程块中的指令。SM通过分配线程、调度指令和管理内存等操作,实现高效的并行计算。
- CUDA Core, 包含了一个整数运算单元ALU (Integer Arithmetic Logic Unit) 和一个浮点运算单元FPU (Floating Point Unit) 。
- TensorCore,Tensor Memory Accelerator是主要用于加速AI计算负载中的矩阵乘法和累加(Matrix Multiply-Accumulate, MMA),Tensor Core之所以计算效率高是因为硬件层面实现了4x4x4的矩阵乘法运算。
存储单元
off-chip memory: HBM处于GPU off-chip,也被称为全局存储Global Memory,属于DRAM存储类型。
on-chip memory: L2/L1/L0 Cache处于on-chip,属于SRAM存储类型。 L2 缓存可以被所有 SM 访问,有时也被称为shared memory,速度比全局内存快;L1 缓存用于存储 SM 内的数据,被 SM 内的 CUDA cores 共享,但是跨 SM 之间的 L1 不能相互访问。

通信方式
机器内通信
共享内存、PCIe、NVLink(直连模式)

B/W表示传输带宽、Latency表示传相同数据量情况下延迟
PCIe
- 必须通过CPU中转,高延迟低带宽
- 适合CPU-GPU小数据交互(如控制指令)
- 约64GB/s
NVLink
- GPU间直连,低延迟高带宽
- 适合多卡参数同步(如AllReduce)
- 约900GB/s
机器间通信
TCP/IP网络、RDMA网络(直连模式)、NVSwitch

参考链接
https://developer.nvidia.com/zh-cn/blog/nvidia-nvlink-and-nvidia-nvswitch-supercharge-large-language-model-inference/
https://www.simcentric.com/sc/hong-kong-dedicated-server-sc/nvme-over-rdma-high-performance-storage-networks/
本文来自博客园,作者:fariver,转载请注明原文链接:https://www.cnblogs.com/fariver/p/18937136

浙公网安备 33010602011771号