摘要:大规模稀疏向量余弦相似度计算方法(续)转载请注明出处(zz_boy):http://www.cnblogs.com/zz-boy/archive/2012/12/15/2819401.html向量u1和u2的余弦相似度计算公式如下我们将向量表示成矩阵Rm*n,如下所示d1d2d3d4…dnu1r11r12r13r14…r1nu2r21r22r23r24…r2nu3r31r32r33r34…r3n…………………umrm1rm2rm3rm4…rmnrij表示向量ui的第j维(dj)的值。那么ua和ub的余弦相似度可以表示成如下的公式我们假设那么上面的公式可以改写成因此ua和ub的余弦相
阅读全文
摘要:关联规则挖掘经典算法Apriori就是挖掘频繁项目集的算法,但是在面对大规模数据时其效率很低,尤其是挖掘2,3,4频繁项目集时,其实2频繁项目集挖掘可以看作是共现问题,项目中我们发现如果把2频繁项目集当作共现问题来求解其效率较当作频繁项目集求解要高很多,下面说下我们的求解思路。 对于大规模数据,要想加快速度最直观的想法就是做数据集的划分,然后并行处理。对于共现问题,数据集划分的要求是划分之后并行处理所得的结果是完备的,也就是不能丢失2频繁项目。试验中,我们所得的结果是2频繁项目的超集。设事务数据库为:<A E F G> <A F G> <A B E F G>
阅读全文
摘要:做过推荐系统的人估计都会懂得下面公式中基本元素的含义,这里就不多做解释了,这个算法是我在一个项目中开发的,原本该算法是一个并行处理的算法,为了阐述算法的本质,我把它凝练成下面的代码段,重点在于阐述原理。 用户相似度矩阵的计算原理 N(u): 用户u操作过的物品集合 N(i) : 对物品i有过操作的用户集合 Wuv : 用户u,v的相似度 存储模型 Ø使用mongoDB作为...
阅读全文