摘要: 由于没有使用profiler,仅仅通过简单的传输函数测试,如下测试了10000个点,1000000个点,100000000个点的速度:均按时钟周期来计时,通过MAX调整数据int main(){ clock_t start,finish; int *d_data,*h_data; h_data = (int *)calloc(MAX, sizeof(int)); memset(h_data,0,MAX*sizeof(int)); cudaMalloc((void **) &d_data,MAX*sizeof(int)); start = clock(); ... 阅读全文
posted @ 2013-10-30 16:51 xingoo 阅读(1255) 评论(0) 推荐(0)