显卡比较：Tesla T4 与 RTX3090Ti 性能对比；深度学习方向效率对比；

部分数值由于厂家不同，略有出入
	Nvidia Tesla T4	Nvidia RTX 3090Ti	该参数的作用
架构	Turing架构	Ampere架构
VERSUS网评分	52分	94分	综合评分
Tensor核心数	320个Tensor Core	656个Tensor Core	张量核支持混合精度计算，动态调整计算以加快吞吐量，同时保持精度。
CUDA数量	2560	10725	CUDA运算速度只和核心频率有关，而CUDA核心数量则决定了显卡的计算力的强弱。（比如，一项渲染任务，可以拆分为更多份交给不同的CUDA核心进行处理）

单精度浮点性能(FP32）	8.1FLOPS		代表显卡的浮点计算能力，越高算力越强。
半精度浮点数(FP16)	65TFLOPS
INT4浮点性能	260TFLOPS
浮点性能	7.76 TFLOPS	40 TFLOPS	浮点运算性能是衡量GPU处理器基本马力的方法
AI计算运行速度		320TFLOPS
显存带宽（存储器带宽）	320 GB/s	1008 GB/s	指显示芯片与显存之间的数据传输速率，它以字节/秒为单位。显存带宽是决定显卡性能和速度最重要的因素之一。
显存类型	GDDR6	GDDR6X
显存大小（VRAM）	16G	24G	是显卡的专用内存。决定batch_size的上限
内存总线宽度（显存位宽）	256bit	384bit	更宽的总线宽度代表在每个电脑运行周期能处理更多的数据。（代表GPU芯片每个时钟周期内能从GPU显卡中读取的数据大小，值越大，代表GPU芯片与显存之间的数据交换的速度越快。）

GPU时脉速度	1005MHz	1670MHz
核心频率	1582Mhz	1560MHz	只显示核心的工作频率，其工作频率在一定程度上可以反映出显示核心的性能。
超频频率（GPU TURBO）	1590MHz	1890MHz	当cpu运行低于其限制速度时，其会促进更高的时钟速度，从而获得更高的性能。
纹理速率
像素率
功率	75w	450w

1. GPU的计算能力的衡量指标：显存大小、CUDA数量、计算主频；

2. 描述GPU计算能力的指标：计算峰值；存储器带宽；

3. GPU的计算峰值在进行边缘计算的时候是非常重要的。

　　单精度计算能力的峰值 = 单核单周期计算次数 * 处理核个数 * 主频；

FLOPS是每秒所执行的浮点运算次数，也就是GPU计算的基本单位；TFLOPS：每秒一万亿次的浮点运算；

GPU计算浮点数的理论峰值 = GPU芯片数量 * GPU Boost主频 * 核心数量 * 单个时钟周期内能处理的浮点计算次数；

4. 带宽：带宽由频率和位宽两个因素所决定；计算公式为：带宽=频率*位宽/8

个人总结：

1. 个人觉得，这么看下来，显卡就是看：能存多少；存的有多快；算的有多快；对应就是：显存大小；带宽；浮点速度；

2. 在不考虑显存上限前提下，带宽，浮点速度同时影响GPU的性能；

3. 从上图所示，T4的处理速度是3090Ti的1/5，但交换速度同时也更慢，在1/3左右。因此T4的整体深度学习速度，大概会在 3090Ti的0.16倍~0.06倍之间；

（简单估算，若不合理，请指教）；

参考：深度学习GPU显卡的浮点计算性能指标分析 - 百度文库 (baidu.com)

posted @ 2022-06-30 13:47 张幼安阅读(75432) 评论(1) 收藏举报

刷新页面返回顶部

厚土

项目源代码见：https://github.com/AtwoodZhang

显卡比较：Tesla T4 与 RTX3090Ti 性能对比；深度学习方向效率对比；

公告