1.准备
使用MPI做并行计算时,根据程序的具体要求,可按任务进行分配或数据进行分配。根据矩阵乘积的特点,这里按数据进行分配,即每个计算机节点计算不同的数据,由于矩阵数据的特点,这里按行进行数据分块。因为本人使用的是C语言,数组在C语言的表示下行间数据地址是连续的(注:若是Fortran语言,则列是连续的)。
2.mpi程序的框架
mpi程序运行是靠输入dos命令执行的,因此,mpi程序一般都在main函数内,也即程序入口函数中。一般都会有MPI_Init、MPI_Comm_rank、MPI_Comm_size、MPI_Finalize这四个函数。用法如下:
记得要加上mpi.lib
1 #include “mpi.h”
2
3 int main(int argc,char *argv[])
4 {
5 int myid,numprocs;
6 MPI_Init(&argc,&argv);//MPI Initialize
7 MPI_Comm_rank(MPI_COMM_WORLD,&myid);//获得当前进程号
8 MPI_Comm_size(MPI_COMM_WORLD,&numprocs);//获得进程个数
9 //mpi计算过程
10 MPI_Finalize();//结束
11 }
3.矩阵乘法
矩阵乘法在于对矩阵进行分块,然后交由各进程执行,最后将计算结果传递给主进程。
假设是M*N,计算前,将矩阵N发送给所有从进程,然后将矩阵M分块,将M中数据按行分给各从进程,在从进程中计算M中部分行数据和N的乘积,最后将结果发送给主进程。这里为了方便,有多少进程,就将M分了多少块,除最后一块外的其他数据块大小都相等,最后一块是剩下的数据,大小大于等于其他数据块大小,因为矩阵行数不一定整除进程数。最后一块数据在主进程中计算,其他的在从进程中计算。
定义两个矩阵M和N,N所有进程都需要,M可以只在主进程中定义。其他的变量视主进程和从进程需要按要求定义在合适的位置。
代码如下,包括矩阵初始化,数据传递,矩阵乘积计算等。
1 void matgen(float* a,int Width);
2 //产生矩阵
3 void matgen(float* a,int Width)
4 {
5 int i,j;
6 for (i=0;i<Width;i++)
7 {
8 for (j=0;j<Width;j++)
9 {
10 //a[i*Width+j]=(float)rand()/RAND_MAX + (float)rand()/(RAND_MAX*RAND_MAX); //产生矩阵,矩阵中元素0~1
11 a[i*Width+j]=1.00;
12 }
13 }
14 }
15
16 void main(int argc,char *argv[])
17 {
18 float *M,*N,*P,*buffer,*ans;
19 int Width=1000;
20 int myid,numprocs;
21 MPI_Status status;
22
23 MPI_Init(&argc,&argv);//MPI Initialize
24 MPI_Comm_rank(MPI_COMM_WORLD,&myid);//获得当前进程号
25 MPI_Comm_size(MPI_COMM_WORLD,&numprocs);//获得进程个数
26
27 int line = Width/numprocs;//将数据分为(进程数)个块,主进程也要处理数据
28 M = (float*)malloc(sizeof(float)*Width*Width);
29 N = (float*)malloc(sizeof(float)*Width*Width);
30 P = (float*)malloc(sizeof(float)*Width*Width);
31 //缓存大小大于等于要处理的数据大小,大于时只需关注实际数据那部分
32 buffer = (float*)malloc(sizeof(float)*Width*line);//数据分组大小
33 ans = (float*)malloc(sizeof(float)*Width*line);//保存数据块结算的结果
34
35 //主进程对矩阵赋初值,并将矩阵N广播到各进程,将矩阵M分组广播到各进程
36 if (myid==0)
37 {
38 //矩阵赋初值
39 matgen(M,Width);
40 matgen(N,Width);
41 //将矩阵N发送给其他从进程
42 //MPI_Bcast(N,Width*Width,MPI_FLOAT,0,MPI_COMM_WORLD);
43 for (int i=1;i<numprocs;i++)
44 {
45 MPI_Send(N,Width*Width,MPI_FLOAT,i,0,MPI_COMM_WORLD);
46 }
47 //依次将M的各行发送给各从进程
48 for (int m=1;m<numprocs;m++)
49 {
50 /*
51 //按行分组,得到buffer,发送给从进程
52 for (int i=(m-1)*line;i<m*line;i++)
53 {
54 for (int j=0;j<Width;j++)
55 {
56 buffer[(i-(m-1)*line)*Width+j]=M[i*Width+j];
57 }
58 }
59 //经数据buffer发送到进程m
60 MPI_Send(buffer,line*Width,MPI_FLOAT,m,m,MPI_COMM_WORLD);
61 */
62 MPI_Send(M+(m-1)*line*Width,Width*line,MPI_FLOAT,m,1,MPI_COMM_WORLD);
63 }
64 //接收从进程计算的结果
65 for (int k=1;k<numprocs;k++)
66 {
67 MPI_Recv(ans,line*Width,MPI_FLOAT,k,3,MPI_COMM_WORLD,&status);
68 //将结果传递给数组P
69 for (int i=0;i<line;i++)
70 {
71 for (int j=0;j<Width;j++)
72 {
73 P[((k-1)*line+i)*Width+j]=ans[i*Width+j];
74 }
75 }
76 }
77 //计算M剩下的数据
78 for (int i=(numprocs-1)*line;i<Width;i++)
79 {
80 for (int j=0;j<Width;j++)
81 {
82 float temp=0.0;
83 for (int k=0;k<Width;k++)
84 temp += M[i*Width+k]*N[k*Width+j];
85 P[i*Width+j]=temp;
86 }
87 }
88 //测试结果,计算一行的和
89 float sum1=0;
90 float sum2=0;
91 for (int i=0;i<Width;i++)
92 {
93 sum1 += M[i];
94 sum2 += P[600*Width+i];
95 }
96 printf("sum1=%f sum2=%f\n",sum1,sum2);
97 //统计时间
98 double clockEnd = (double)clock();
99 printf("myid:%d time:%.2fs\n",myid,(clockEnd-clockStart)/1000);//结果测试
100 }
101
102 //其他进程接收数据,计算结果后,发送给主进程
103 else
104 {
105 //接收广播的数据(矩阵N)
106 //MPI_Bcast(N,Width*Width,MPI_FLOAT,0,MPI_COMM_WORLD);
107 MPI_Recv(N,Width*Width,MPI_FLOAT,0,0,MPI_COMM_WORLD,&status);
108
109 MPI_Recv(buffer,Width*line,MPI_FLOAT,0,1,MPI_COMM_WORLD,&status);
110 //计算乘积结果,并将结果发送给主进程
111 for (int i=0;i<line;i++)
112 {
113 for (int j=0;j<Width;j++)
114 {
115 float temp=0.0;
116 for(int k=0;k<Width;k++)
117 temp += buffer[i*Width+k]*N[k*Width+j];
118 ans[i*Width+j]=temp;
119 }
120 }
121 //将计算结果传送给主进程
122 MPI_Send(ans,line*Width,MPI_FLOAT,0,3,MPI_COMM_WORLD);
123 }
124
125 MPI_Finalize();//结束
126
127 return 0;
128 }
可以对上述结果进行测试,测试时为了方便可以不用每次都在dos终端下输入命令,建立一个.bat的批处理命令即可,方法如下:
新建一个文本文件,在里面加上执行命令,诸如:mpiexec -n 5 XXX.exe,然后将文件重命名为xxx.bat,双击该bat文件即可执行mpi程序,但是会看不到输出结果,此方法在带有GUI的程序时很有用,运行其他程序或要对运行参数进行修改时,只需要编辑bat文件即可。相对于在命令提示符下可谓方便许多。
对于上面的程序其实还有优化的地方,仔细分析,可知,进程中需要的数据如下:
主进程:M、N、P(存储结果)、line
从进程:N、buffer(存储M分块的数据)、ans(存储计算结果)、line(计算M的行数)
buffer直接接受M分块的数据,主进程中矩阵P直接接受从进程ans传递的结果值。
如下:
1 for (int k=1;k<numprocs;k++)
2 {
MPI_Recv(P+(k-1)*line*Width,line*Width,MPI_FLOAT,k,3,MPI_COMM_WORLD,&status);
3 }
4.题外
除了该方法外,还有一种就是计算都在从进程中计算,主进程只负责数据的管理。这样计算所花的时间要比上面方法的时间短,具体请自行验证。
浙公网安备 33010602011771号