cuda学习心得--2.真正入手利用GPU计算加法

cuda学习心得--1.一切从hello world开始 这篇文章并没有利用GPU来计算。现在才开始讲述怎么利用GPU来计算。先看代码:

1 #include "cuda_runtime.h"
2 #include "device_launch_parameters.h"
3 #include <iostream>
4 using namespace std;
5 // 这里是__global__是让代码在GPU里执行,
6 __global__ void add( int *c, const int a, const int b)
7 {
8 *c = a + b;
9 }
10
11 int main()
12 {
13 int *dev_c ; //声明指针,用于GPU分配地址
14 int c ; //把GPU计算好的结果存放到内存里,
15 cudaError_t cudaStatus; // 定义状态
16 // 通过cudaMalloc分配地址,不能对这个内存地址dev_c进行直接引用操作
17 cudaStatus = cudaMalloc((void**)&dev_c, sizeof(int));
18 // 如果不成功,就退出
19 if( cudaStatus != cudaSuccess )
20 {
21 cout << "error at cudaMalloc" << endl;
22 return -1;
23 }
24 // 调用add函数,在GPU执行
25 add<<<1,1>>>(dev_c, 1, 2);
26
27 //把GPU执行的结果放到c里去,必须要通过cudaMemcpy来从GPU复制到内存,而不能直接用dev_c。
28 cudaStatus = cudaMemcpy(&c, dev_c, sizeof(int), cudaMemcpyDeviceToHost );
29 // 如果不成功,就退出
30 if( cudaStatus != cudaSuccess )
31 {
32 cout << "error at cudaMemcpy" << endl;
33 return -1;
34 }
35 // 验证计算结果
36 cout << " 1 + 2 = " << c << endl;
37 // 释放分配的空间
38 cudaFree(dev_c);
39
40 return 0;
41 }

在这里,能看到CUDA C和C/C++的不同地方:

1.我们看到add()这个函数前面加了一个__global__这个关键字,这个关键字将告诉编译器,函数应该编译在设备上运行,而不是在主机上运行。

2.使用了cudaMalloc来分配空间,所分配得到指针传递给在设备上执行的函数,用来cudaFree施放分配的空间。如果想把值在设备和主机上传递则用了cudaMemcpy这个函数,第四个参数表示这个值是从哪里到哪里,共有这几个值,如下:

1 /**
2 * CUDA memory copy types
3 */
4 /*DEVICE_BUILTIN*/
5 enum cudaMemcpyKind
6 {
7 cudaMemcpyHostToHost = 0, /**< Host -> Host */
8 cudaMemcpyHostToDevice = 1, /**< Host -> Device */
9 cudaMemcpyDeviceToHost = 2, /**< Device -> Host */
10 cudaMemcpyDeviceToDevice = 3, /**< Device -> Device */
11 cudaMemcpyDefault = 4 /**< Default based unified virtual address space */
12 };

通常只用了cudaMemcpyHostToDevice 和cudaMemcpyDeviceToHost这两值,即从主机到设备和从设备到主机。特别重要一点,不能在主机代码里使用cudaMalloc分配的指针进行内存读写操作,只能用cudaMemcpy来进行处理。

3.add()函数的调用,竟然变成了add<<<1,1>>>(dev_c, 1, 2);。使用了<<<1,1>>>这么奇怪的方式,第一个1代表着1个线程块,后面的1是代表一个线程在执行。线程块最大值是65535,线程最大值是512,同时执行最多就只有65535*512。这就是并行的魅力所在,不像CPU执行,只能一个个运行。当然现在有多核的CPU,但普通的CPU也就那个几个核,根本无法比。这就是GPU编程的魅力所在,能对大量的数据并行执行。

当然我们这个例子根本看不到效率,等数量级变大,才能看出并行的魅力。

posted on 2011-06-18 23:56  流浪念枫雪  阅读(3163)  评论(6编辑  收藏  举报

导航