【CUDA研究】不同设备上的GPU性能分析

NVIDIA Gefore RTX 4080


CUDA Capability Major/Minor version number: 8.9​​
设备的计算能力版本为8.9,表示支持的功能集和架构特性

​​Total amount of global memory: 16057 MBytes (16836919296 bytes)​​
显卡的全局内存总量为16GB

MapSMtoCores for SM 8.9 is undefined. Default to use 128 Cores/SM​​
计算能力8.9的SM(流式多处理器)核心数未定义,默认每个SM有128个CUDA核心

(076) Multiprocessors, (128) CUDA Cores/MP: 9728 CUDA Cores​​

76个多处理器(SM)
每个SM有128个CUDA核心
总计:76 × 128 = 9728个CUDA核心
Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 1536​

每个SM最多支持1536个线程(即,48个线程束)

Maximum number of threads per block: 1024​​
每个线程块最多支持1024个线程

NVIDIA A100

CUDA Capability Major/Minor version number: 8.0​
设备的计算能力版本为8.0,表示支持的功能集和架构特性

​Total amount of global memory: 81053 MBytes (84990623744 bytes)​​
显卡的全局内存总量为80GB

(108) Multiprocessors, (64) CUDA Cores/MP: 6912 CUDA Cores​​

108个多处理器(SM)
每个SM有64个CUDA核心
总计:108 × 64 = 6912个CUDA核心
Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 2048​

每个SM最多支持2048个线程(即,64个线程束)

Maximum number of threads per block: 1024​​
每个线程块最多支持1024个线程

Tesla T4

CUDA Capability Major/Minor version number: 7.5​
设备的计算能力版本为7.5,表示支持的功能集和架构特性

​Total amount of global memory: 14931 MBytes (15655829504 bytes)​​
显卡的全局内存总量为14.9GB

(40) Multiprocessors, (64) CUDA Cores/MP: 2560 CUDA Cores​​

40个多处理器(SM)
每个SM有64个CUDA核心
总计:40 × 64 = 2560个CUDA核心
Warp size: 32​

线程束(Warp)大小为32,即每个Warp包含32个线程

Maximum number of threads per multiprocessor: 1024​

每个SM最多支持1024个线程(即,32个线程束)

Maximum number of threads per block: 1024​​
每个线程块最多支持1024个线程

posted @ 2025-05-27 19:55  金狮子leon  阅读(59)  评论(0)    收藏  举报