gpu 内存模型
gpu 内存模型
每个gpu有很多Multyproccessor,每个processor结构如下
1)私有本地内存
2)共享内存,速度很快,可以被块中的所有线程访问,生命周期与块一致
__share__调用
void __syncthreads()使块中的线程同步,相当与一个障碍点,所有程序运行到障碍点再开始下一步
共享内存被分为了很多相同大小的内存块banks,要注意bank访问冲突
3)全局内存,访问速度最慢
通过cache访问,访问是对齐的
4)常量内存和纹理内存,使用偏少
寄存器,速度最快,变量影响寄存器。越少越好
5)缓存