CUDA：低占用率下的更好性能（三）

前两部分是有关ILP隐藏计算和访存延迟，从而在GPU低占用率的情况下达到高并行度和吞吐率。下一部分是讨论在共享内存（shared memory）和寄存器（register）之间的权衡，作者从吞吐率的角度上说明使用共享内存达不到最好性能，最好降低占用率从而尽可能多的使用寄存器。

----------------------------------------------------------------------------------------------

3.使用更少线程运行更快

使用更少线程意味着每个线程拥有更多的寄存器。

每个线程的寄存器数：

GF100：在100%占用率时有20个，在33%占用率时63个，为3倍。

GT200：在100%占用率时有16个，在12.5%占用率时约有128个，为8倍

那么每个线程有更多的寄存器是不是更好呢？

只有寄存器的速度才能足够达到峰值。考虑这样一个计算: a*b+c：2个flops，12B输入，4B输出，则对于1.3Tflop/s的计算峰值，需要8.1TB/s的带宽，寄存器可以满足这样的要求，我们来看看共享内存（shared memory）能不能达到？

只有 4B*32banks*15SMs*half 1.4GHz = 1.3TB/s

需要的带宽和可以达到的带宽比较：

lz：可以看出共享内存的带宽是全局内存（显存）的7.6倍，而寄存器是共享内存的6倍，至少需要8TB/s的带宽才能让GPU的计算达到峰值，寄存器可以做到（废话，做不到这个计算峰值就根本不存在了）。

谬误：“事实上，对一个warp中的所有线程来说，如果线程间没有bank conflicts，访问共享内存和访问寄存器一样快。”（CUDA Programming Guide）

不，在Fermi架构中，共享内存的带宽比寄存器慢6倍以上。（非Fermi为3倍）

运行更快可能需要更低的占用率：

1. 必须使用寄存器才能接近峰值

2. 不同存储的带宽差距越大，越多的数据就必须从寄存器中读取

3. 而使用越多的寄存器意味着越低的占用率

这常常可以通过每个线程计算更多的输出来完成。

对线程来说，越多的数据存放于寄存器意味着越少次数的共享内存访问。越少的线程，但每个线程做越多的工作，使得低占用率不成问题。

从Tesla到Fermi是一种倒退吗？

共享内存带宽和计算带宽的差距增加了：

使用快速的寄存器会有帮助，但寄存器的数目被严格限制：

G80-GT200: 每个线程最多128个寄存器

Fermi：每个线程最多64个寄存器

posted on 2016-08-14 14:01 d神阅读(346) 评论(0) 收藏举报

刷新页面返回顶部