摘要: 全局存储器,即普通的显存,整个网格中的任意线程都能读写全局存储器的任意位置。存取延时为400-600 clock cycles 非常容易成为性能瓶颈。访问显存时,读取和存储必须对齐,宽度为4Byte。如果没有正确的对齐,读写将被编译器拆分为多次操作,降低访存性能。多个warp的读写操作如果能够满足合... 阅读全文
posted @ 2015-06-17 22:27 缥缈星空 阅读(1986) 评论(0) 推荐(0)