推荐系统 - 随笔分类 - Razzit

大规模稀疏向量余弦相似度计算方法（续）

摘要：大规模稀疏向量余弦相似度计算方法（续）转载请注明出处(zz_boy):http://www.cnblogs.com/zz-boy/archive/2012/12/15/2819401.html向量u1和u2的余弦相似度计算公式如下我们将向量表示成矩阵Rm*n，如下所示d1d2d3d4…dnu1r11r12r13r14…r1nu2r21r22r23r24…r2nu3r31r32r33r34…r3n…………………umrm1rm2rm3rm4…rmnrij表示向量ui的第j维（dj）的值。那么ua和ub的余弦相似度可以表示成如下的公式我们假设那么上面的公式可以改写成因此ua和ub的余弦相阅读全文

posted @ 2012-12-15 15:54 Razzit 阅读(3482) 评论(1) 推荐(0)

关联规则挖掘之2频繁项目集问题引申

摘要：关联规则挖掘经典算法Apriori就是挖掘频繁项目集的算法，但是在面对大规模数据时其效率很低，尤其是挖掘2，3，4频繁项目集时，其实2频繁项目集挖掘可以看作是共现问题，项目中我们发现如果把2频繁项目集当作共现问题来求解其效率较当作频繁项目集求解要高很多，下面说下我们的求解思路。对于大规模数据，要想加快速度最直观的想法就是做数据集的划分，然后并行处理。对于共现问题，数据集划分的要求是划分之后并行处理所得的结果是完备的，也就是不能丢失2频繁项目。试验中，我们所得的结果是2频繁项目的超集。设事务数据库为：<A E F G> <A F G> <A B E F G> 阅读全文

posted @ 2012-11-15 22:07 Razzit 阅读(1406) 评论(2) 推荐(1)

基于用户的协同过滤算法-适宜于分布式处理的用户相似度计算

摘要：做过推荐系统的人估计都会懂得下面公式中基本元素的含义，这里就不多做解释了，这个算法是我在一个项目中开发的，原本该算法是一个并行处理的算法，为了阐述算法的本质，我把它凝练成下面的代码段，重点在于阐述原理。用户相似度矩阵的计算原理 N(u): 用户u操作过的物品集合 N(i) : 对物品i有过操作的用户集合 Wuv : 用户u，v的相似度存储模型 Ø使用mongoDB作为... 阅读全文

posted @ 2012-11-01 21:59 Razzit 阅读(1861) 评论(0) 推荐(0)

Razzit

随笔分类 - 推荐系统

大规模稀疏向量余弦相似度计算方法（续）

关联规则挖掘之2频繁项目集问题引申

基于用户的协同过滤算法-适宜于分布式处理的用户相似度计算

公告

导航