摘要:
http://www.cnblogs.com/dubing/archive/2011/10/10/2085742.html学习了"熬夜的虫子"这位同学的各种线程,各种block情况下的,速度比较。在他的博文指导下,做了比较重要的几点点的修正,如下:1.在运行一个kernel(即.cu文件中带有__global__标志的函数)后,加上了cudaDeviceSynchronize();进行同步,否则6中方式计算得到的数据会不一致。2.对6种计算方法的非kernel部分代码,全部进行了重写。各自代码,不共用。3.对多block 、多线程、带线程同步的方法6,__share__ 共 阅读全文
posted @ 2014-03-23 16:34
baowenbo
阅读(596)
评论(0)
推荐(0)
浙公网安备 33010602011771号