MapReduce的矩阵相乘

一、单个mapreduce的实现

转自：http://blog.sina.com.cn/s/blog_62186b460101ai1x.html

王斌_ICTIR老师的《大数据：互联网大规模数据挖掘与分布式处理》，下面是对第二章提到的的单轮计算矩阵乘法进行的学习实现过程。

矩阵的乘法只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有定义。一般单指矩阵乘积时，指的便是一般矩阵乘积。若A为i×r矩阵，B为r×j矩阵，则他们的乘积AB(有时记做A · B)会是一个i×j矩阵。其乘积矩阵的元素如下面式子得出:

书中提到的对矩阵乘法的MapReduce实现方法是：

Map函数：对于矩阵M的每个元素M[i,j]，产生一系列的键值对(i,k)->(M,j, M[i,j]),其中k=1,2…，直到矩阵N的列数。同样，对于矩阵N的每个元素N[j,k]，产生一系列的键值对(i，k)->(N,j,N[j,k]),其中i=1,2…，直到矩阵M的行数。

Reduce函数：根据MR的原理，相同键i,k的数据会发送个同一个 reduce。如果M为2*2矩阵，N为2×3矩阵，reduce函数需要处理的数据为：

（1,1）->[(M,1, M[1,1])、(M,2, M[1,2])、(N,1, N[1,1])、(N,2, N[2,1])]，

（1,2）->[(M,1, M[1,1])、(M,2, M[1,2])、(N,1, N[1,2])、(N,2, N[2,2])]，

（1,3）->[(M,1, M[1,1])、(M,2, M[1,2])、(N,1, N[1,3])、(N,2, N[2,3])],

（2,1）->[(M,1, M[2,1])、(M,2, M[2,2])、(N,1, N[1,1])、(N,2, N[2,1])]，

（2,2）->[(M,1, M[2,1])、(M,2, M[2,2])、(N,1, N[1,2])、(N,2, N[2,2])]，

（2,3）->[(M,1, M[2,1])、(M,2, M[2,2])、(N,1, N[1,3])、(N,2, N[2,3])]。

这样只要将所有(M,j, M[i,j])和(N,j, N[j,k])分别按照j值排序并放在不同的两个列表里面。将这个列表的第j个元素M[i,j]个N[j,k]相乘，然后将这些积相加，最后积的和与键(i,k)组对作为reduce函数的输出。对于上面的例子reduce的输出就是：

（1,1）->（M[1,1]* N[1,1]+ M[1,2]* N[2,1]）

（1,2）->（M[1,1]* N[1,2]+ M[1,2]* N[2,2]）

（1,3）->（M[1,1]* N[1,3]+ M[1,2]* N[2,3]）

（2,1）->（M[2,1]* N[2,1]+ M[2,2]* N[2,1]）

（2,2）->（M[2,1]* N[1,2]+ M[2,2]* N[2,2]）

（2,3）->（M[2,1]* N[1,3]+ M[2,2]* N[2,3]）

下面是MapReduce的实现步骤：

(1).构造矩阵M：300*150；矩阵N：150*500。两矩阵的值放入HDFS的文件中，每行的格式为：文件标识#行坐标#列坐标#坐标值。

　　(2).基于上面的方法编写Map函数和Reduce函数。

http://f.dataguru.cn/thread-133912-1-1.html（也有提到）

二、两次mapreduce

转自：http://f.dataguru.cn/forum.php?mod=viewthread&tid=37927

矩阵相乘：
i*k阶的矩阵M与k*j阶的矩阵N相乘得到到i*j阶的矩阵Q
使用两次map-reduce方法实现矩阵相乘。
第一次mapreduce实现：
对于左矩阵M：
map过程:<(i,k,M),value> ==> <k,(i,value,M)>
map的InputKey为自定义对象,含有三个属性，分别是行号i，列号k,及其矩阵标识号M，
InputValue为矩阵M的i,k的值；
map的OutputKey为列号k,
OutputValue为自定义的对象，含有三个属性:分别是行号i，矩阵标识号M及其值value。

右矩阵N：
map过程:<(k,j,N),value> ==> <k,(j,value,N)>
map的InputKey为自定义对象,含有三个属性，分别是行号k，列号j,及其矩阵标识号N，
InputValue为矩阵M的k,j的值；
map的OutputKey为行号k,
OutputValue为自定义的对象，含有三个属性:分别是列号j，矩阵标识号N及其值value。

reduce的过程:
<k,(i0,value1,M)>
<k,(i1,value2,M)>
......
<k,(j0,value,N)>
<k,(j1,value,N)>
.....
上述作为：reducer的InputKey和InputValue
OutputKey为k，OutputValue为：(i0,value,M),(i1,value,M)......(j0,value,N),(j1,value,N)......列表。

第二次mapreduce实现：
map的过程:
InputKey:k;OutputKey：(i0,value,M),(i1,value,M)......(j0,value,N),(j1,value,N)......
(i0,value,M),(i1,value,M)......与(j0,value,N),(j1,value,N)......进行笛卡尔乘积，计算的结果：
(i0,j0,value*value),(i0,j1,value*value),(i1,j0,value*value),(i1,j1,value*value)......
map的输出结果为：<(i,j),value>

reducer的过程：
输入为：<(i,j),value>
输出结果为：相同的(i,j)将值相加即可，输出为的<(i,j),sum(value)>.
这样的话：M(i,k) * N(k,j) = Q(i,k).

有空写一下代码~

posted on 2013-07-05 11:07 南宫星海阅读(846) 评论(0) 收藏举报