摘要: 倒排索引要存哪些信息   提到倒排索引,第一感觉是词到文档列表的映射,实际上,倒排索引需要存储的信息不止词和文档列表。为了使用余弦相似度计算搜索词和文档的相似度,需要计算文档中每个词的 "TF IDF" 值,这样就需要记录词在每个文档中出现的频率以及包含这个词的文档数量,前者需要 阅读全文
posted @ 2017-03-10 20:12 Razzit 阅读(509) 评论(0) 推荐(0) 编辑

2014年4月6日

摘要: 转载请注明出处:http://www.cnblogs.com/zz-boy/p/3648878.html更多精彩文章在:http://www.cnblogs.com/zz-boy/最近看了Google在WWW2007上发表的Scaling Up All Pairs Similarity Search,觉得还不错,分享一下作者的思路。在基于用户协同过滤方法的推荐系统中,用户相似度的计算是最终推荐的基础步骤;用户向量是用户的行为向量,其每一维度是物品,值是用户对该物品的喜爱程度,这种场景尤其多见于电商网站,电商网站中的用户数据量是很大的,物品数量也很多,这就导致用户向量数量很大,如果不加优化的计算 阅读全文
posted @ 2014-04-06 19:10 Razzit 阅读(2938) 评论(0) 推荐(1) 编辑
摘要: 转载请注明出处[zz_boy]:http://www.cnblogs.com/zz-boy/p/3648434.html欢迎大家访问我的其它博客,我的博客园主页:http://www.cnblogs.com/zz-boy/每个屌丝都有自己的女神专属屌丝的通病便是眼神不老实。走在街上,看到漂亮妹子情不自禁要多瞟几眼,如果是两三屌丝在一起,时不时还要品评一番,如果一群屌丝只有你觉得这个妹子漂亮,一般情况下是要恭喜你的,因为你总不免要被嘲笑一番,然后大家一致得出结论你审美能力低下;当然这种极端的情况很少出现,对一个妹子,总有些屌丝觉得漂亮,有些屌丝不置可否。万千屌丝在极端无聊的情况下,发明了一种惨无 阅读全文
posted @ 2014-04-06 13:01 Razzit 阅读(1558) 评论(4) 推荐(1) 编辑

2012年12月25日

摘要: 计算大规模稀疏向量余弦相似度简介本项目的目的是用于计算大规模向量的余弦相似度,其核心的设计思想请查看我博客中的文章http://www.cnblogs.com/zz-boy/archive/2012/12/15/2819401.html,在这篇文章中我阐述了使用外排序的思想设计计算余弦相似度的算法,本项目的SVN检出地址为http://largescalecosinsim.googlecode.com/svn/trunk/,下面我将具体阐述该项目的使用方法。使用方法代码的包结构如下图所示:org.similarityorg.similarity.coreorg.similarity.exten 阅读全文
posted @ 2012-12-25 21:21 Razzit 阅读(1688) 评论(2) 推荐(0) 编辑

2012年12月15日

摘要: 大规模稀疏向量余弦相似度计算方法(续)转载请注明出处(zz_boy):http://www.cnblogs.com/zz-boy/archive/2012/12/15/2819401.html向量u1和u2的余弦相似度计算公式如下我们将向量表示成矩阵Rm*n,如下所示d­1d2d3d4…dnu1r11r12r13r14…r1nu2r21r22r23r24…r2nu3r31r32r33r34…r3n…………………umrm1rm2rm3rm4…rmnrij表示向量ui的第j维(dj)的值。那么ua和ub的余弦相似度可以表示成如下的公式我们假设那么上面的公式可以改写成因此ua和ub的余弦相 阅读全文
posted @ 2012-12-15 15:54 Razzit 阅读(3365) 评论(1) 推荐(0) 编辑

2012年11月15日

摘要: 关联规则挖掘经典算法Apriori就是挖掘频繁项目集的算法,但是在面对大规模数据时其效率很低,尤其是挖掘2,3,4频繁项目集时,其实2频繁项目集挖掘可以看作是共现问题,项目中我们发现如果把2频繁项目集当作共现问题来求解其效率较当作频繁项目集求解要高很多,下面说下我们的求解思路。 对于大规模数据,要想加快速度最直观的想法就是做数据集的划分,然后并行处理。对于共现问题,数据集划分的要求是划分之后并行处理所得的结果是完备的,也就是不能丢失2频繁项目。试验中,我们所得的结果是2频繁项目的超集。设事务数据库为:<A E F G> <A F G> <A B E F G> 阅读全文
posted @ 2012-11-15 22:07 Razzit 阅读(1350) 评论(2) 推荐(1) 编辑

2012年11月1日

摘要: 做过推荐系统的人估计都会懂得下面公式中基本元素的含义,这里就不多做解释了,这个算法是我在一个项目中开发的,原本该算法是一个并行处理的算法,为了阐述算法的本质,我把它凝练成下面的代码段,重点在于阐述原理。 用户相似度矩阵的计算原理 N(u): 用户u操作过的物品集合 N(i) : 对物品i有过操作的用户集合 Wuv : 用户u,v的相似度 存储模型 Ø使用mongoDB作为... 阅读全文
posted @ 2012-11-01 21:59 Razzit 阅读(1838) 评论(0) 推荐(0) 编辑

2012年10月30日

摘要: 1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter,用一个counter数组代替位数组,就可以支持删除了。 还有一个比较重要的问题,如何根据输入元素个数n,确定位数组m的大小及hash函... 阅读全文
posted @ 2012-10-30 21:39 Razzit 阅读(1334) 评论(0) 推荐(1) 编辑

2012年10月16日

摘要: ****************************************************Mysql *******************************************列 ClassNameColumnTypeDisplaySizeTypeName0: java.lang.IntegerColumnType:411INTEGER1: java.lang.IntegerColumnType:-64TINYINT2: java.lang.StringColumnType:120UNKNOWN3: java.lang.BooleanColumnType:-71TI. 阅读全文
posted @ 2012-10-16 21:58 Razzit 阅读(323) 评论(0) 推荐(0) 编辑

2012年10月6日

摘要: 使用JCONSOLE监控远程LINUX运行的JAVA进程,总是在报连接失败的错误。 1)被监控的服务器端增加启动参数 -Dcom.sun.management.jmxremote.port=8999 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=fals... 阅读全文
posted @ 2012-10-06 21:57 Razzit 阅读(1340) 评论(1) 推荐(0) 编辑

导航