摘要:
1 每个SM上面失少要有192个激活线程,寄存器写后读的数据依赖才能被掩盖2 将 寄存器 的bank冲突降到最低,应尽量使每个block含有的线程数是64的倍数3 block的数量应设置得令可用的计算资源被充分的利用。由于每个block映射到一个sm上面,所以至少应该让block的数目跟sm的数目一样多。4 当Block中的线程被同步时或者等待读取设备存储器时,相应的SM会闲置。通常让block的数目是sm的2倍以上,使其在时间轴上重叠5 如果block的数目足够多,则每个Block里的线程数应设置成warp尺寸的整数倍,以免过小的warp浪费计算资源。6 给每个block分配越多的线程,能更 阅读全文
posted @ 2013-08-28 19:13
xingoo
阅读(4205)
评论(0)
推荐(0)

浙公网安备 33010602011771号