大数据量下协同推荐的难点与优化方法

大数据量是指百万级别以上
协同推荐的算法细节在这里就不论述了，网上有很多文章介绍算法的原理的。

在协同推荐中，第一步是构建用户和物品的矩阵，例如：

当用户量和物品量都比较小的时候，例如几千，几万，这样构建矩阵是没问题的，但是如果用户量和物品量去到几百万，几千万的时候，这样就不能构建了，因为内存顶不住。

假如用户量和物品量都是100万，评分用int类型，也就是4字节存储
那就需要100kw100kw4的内存量，也就是4TB。不要说内存，硬盘也扛不住这个量。

如果来一个新用户C，需要把新用户C加入到矩阵，
然后计算：

如果做热计算（用户请求推荐接口时做计算），这个计算很难做到几秒内返回，所以满足不了产品的需求（因为用户等不及）
如果做冷计算（预先为用户计算好，例如每天晚上为所有用户计算推荐物品），在大用户量的前提下，这个计算用时和存储空间的成本都是很大的

解决方法是可以修改协同推荐的逻辑
修改为：

这样的特点

协同推荐，要计算物品和物品之间，或者用户和用户之间的相似度。常用的相似度算法是余弦相似度，这个计算较为复杂，耗CPU资源。
复杂度也较高，是O(N的平方)，所以优化余弦相似度算法的计算，对整体的计算速度收益较大。

分子是0，不计算分母
计算相似度时，先计算分子，如果分子是0，就不需要计算分母了，这样可以节省时间
去除两个向量相同列的数据都是0的列
例如向量A是(1,0,1,3)，向量B是(2,0,3,4)，两个向量的第二个列的值都是0，所以可以把这列去除，改为计算向量(1,1,3)和 (2,3,4)的相似度，计算结果和去除前一样。对于较为稀疏的矩阵，这个优化效果很明显。

未经同意，请不要转发

posted @ 2019-08-08 19:22 Xjng 阅读(1463) 评论(0) 收藏举报

刷新页面返回顶部

Kevin Lu