06 2015 档案
摘要:全局存储器,即普通的显存,整个网格中的任意线程都能读写全局存储器的任意位置。存取延时为400-600 clock cycles 非常容易成为性能瓶颈。访问显存时,读取和存储必须对齐,宽度为4Byte。如果没有正确的对齐,读写将被编译器拆分为多次操作,降低访存性能。多个warp的读写操作如果能够满足合...
阅读全文
摘要:鉴于自己的毕设需要使用GPU CUDA这项技术,想找一本入门的教材,选择了Jason Sanders等所著的书《CUDA By Example an Introduction to General Purpose GPU Programming》。这本书作为入门教材,写的很不错。自己觉得从理解与记忆...
阅读全文

浙公网安备 33010602011771号